anthropic-experimental/automated-auditing

GitHub: anthropic-experimental/automated-auditing

Anthropic 对齐研究团队开源的自动化审计 agent 配套仓库，分享了对齐审计中调查、评估与红队测试三类 agent 的 prompt、代码及评分方案。

Stars: 167 | Forks: 28

# 自动化审计在这个 repo 中，我们分享了详细介绍我们在[构建和评估对齐审计 agent](https://alignment.anthropic.com/2025/automated-auditing/) 工作的 prompts 和代码。 ## 调查员 Agent 我们分享了调查员 agent 的 prompts，以及该设置的评分 prompts。 ## 评估 Agent 我们分享了由评估 agent 创建的两个示例评估，以及我们 scaffold 的一个轻量级、开源重新实现。我们还分享了该设置的评分 prompts。 ## 广度优先红队测试 Agent 我们分享了所使用的 seed 指令，以及该设置的评分 prompts。

标签：AI安全, AI对齐, AI红队, Chat Copilot, DLL 劫持, 人工智能, 大语言模型, 对称加密, 提示词工程, 用户模式Hook绕过, 策略决策点, 自动化审计, 逆向工具