meridianlabs-ai/inspect_petri

GitHub: meridianlabs-ai/inspect_petri

一个用于大语言模型对齐审计的自动化 agent 框架，通过多模型协作快速检验对齐假设并检测潜在不当行为。

Stars: 1276 | Forks: 208

# 检查 Petri 欢迎使用 Inspect Petri，这是一个审计 agent，支持对语言模型进行自动化监控与交互，以检测潜在的对齐问题、reward hacking 和其他令人担忧的行为。 Petri 可帮助你快速进行端到端的具体对齐假设测试。它可以： - 生成真实的审计场景（通过你的 seed 指令） - 使用 auditor model 和 target model 协调多轮审计 - 模拟工具和 rollbacks 来测试行为 - 使用 judge model 并基于一致的 rubric 对 transcript 进行评分请在了解更多关于使用 Petri 的信息。

标签：AI安全, C2, Chat Copilot, DLL 劫持, 人工智能, 大语言模型, 对称加密, 对齐评估, 用户模式Hook绕过, 自动化审计, 逆向工具