meridianlabs-ai/inspect_petri
GitHub: meridianlabs-ai/inspect_petri
一个用于大语言模型对齐审计的自动化 agent 框架,通过多模型协作快速检验对齐假设并检测潜在不当行为。
Stars: 1233 | Forks: 198
# 检查 Petri
欢迎使用 Inspect Petri,这是一个审计 agent,支持对语言模型进行自动化监控与交互,以检测潜在的对齐问题、reward hacking 和其他令人担忧的行为。
Petri 可帮助你快速进行端到端的具体对齐假设测试。它可以:
- 生成真实的审计场景(通过你的 seed 指令)
- 使用 auditor model 和 target model 协调多轮审计
- 模拟工具和 rollbacks 来测试行为
- 使用 judge model 并基于一致的 rubric 对 transcript 进行评分
请在 了解更多关于使用 Petri 的信息。
标签:AI安全, C2, Chat Copilot, DLL 劫持, 人工智能, 大语言模型, 对称加密, 对齐评估, 用户模式Hook绕过, 自动化审计, 逆向工具