meridianlabs-ai/inspect_petri

GitHub: meridianlabs-ai/inspect_petri

一个用于大语言模型对齐审计的自动化 agent 框架,通过多模型协作快速检验对齐假设并检测潜在不当行为。

Stars: 1233 | Forks: 198

# 检查 Petri 欢迎使用 Inspect Petri,这是一个审计 agent,支持对语言模型进行自动化监控与交互,以检测潜在的对齐问题、reward hacking 和其他令人担忧的行为。 Petri 可帮助你快速进行端到端的具体对齐假设测试。它可以: - 生成真实的审计场景(通过你的 seed 指令) - 使用 auditor model 和 target model 协调多轮审计 - 模拟工具和 rollbacks 来测试行为 - 使用 judge model 并基于一致的 rubric 对 transcript 进行评分 请在 了解更多关于使用 Petri 的信息。
标签:AI安全, C2, Chat Copilot, DLL 劫持, 人工智能, 大语言模型, 对称加密, 对齐评估, 用户模式Hook绕过, 自动化审计, 逆向工具