ChunkyTortoise/ai-redteam-notes

GitHub: ChunkyTortoise/ai-redteam-notes

一份系统性的 AI 智能体红队安全研究作品集，涵盖间接提示注入、MCP 底层威胁分析、跨模型注入基准测试等方向，提供可复现的攻击方法、量化评估框架和面向防御者的缓解建议。

Stars: 0 | Forks: 0

# AI Agent 安全作品集关于 AI 红队、智能体/工具使用安全、间接提示注入、MCP 底层分析以及自动化评估的公开作品集。此处的工作特意将范围限定在实验室目标、公开 CTF、开源权重模型和符合披露安全要求的研究成果。 ## 审阅者路径：5 分钟 1. [招聘审阅者索引图](REPORTS/hiring-reviewer-map.md) - 按角色类别浏览最强公开成果的最快路径。 2. [招聘证据索引](REPORTS/hiring-evidence-index.md) - 从声明到证据的映射，包含命令、披露状态和局限性。 3. [MCP 工具输出间接提示注入中的底层与策略对比](WRITEUPS/2026-05-14-mcp-substrate-vs-policy.md) - 预先注册的 MCP 矩阵，展示了为何看似模型策略绕过的现象实际上是客户端底层效应。 4. [跨模型 ReAct 循环注入基准测试](WRITEUPS/2026-05-14-cross-model-react-loop-injection.md) - DVL-Agent 场景 2 基准测试，比较了 llama3.1:8b 和 mistral-nemo 在裸载荷与伪装载荷下的行为。 5. [策略不是机制](WRITEUPS/2026-05-09-policy-isnt-a-mechanism.md) - 评估风格的报告，解释了为何提示策略在 ReAct 智能体中不能作为访问控制边界。 ## 作品集概览 | 指标 | 当前公开证据 | |---|---:| | ATTACKS 条目 | 10 | | 长篇报告 | 3 | | CTF / 竞赛成果 | 1 | | 面向客户的报告 | 3 | | 评估 / 自动化笔记 | 1 | | 披露状态 | 仅限绿色（已公开）成果 | 主要工具和目标：MCP 实验室测试框架、promptfoo、garak、PyRIT、AgentDojo、Damn Vulnerable LLM Agent、Lakera Gandalf、llama3.1:8b、mistral-nemo、Claude Desktop、Cline、Kilo Code、Windsurf。 ## 置顶成果 ### 研究：MCP 底层归因 - [报告](WRITEUPS/2026-05-14-mcp-substrate-vs-policy.md) - [ATTACKS 条目](ATTACKS/2026-05-10-substrate-amplification-mcp-tool-output.md) - [面向客户的评估](REPORTS/substrate-vs-policy-assessment.md) - [评估框架笔记](EVALS/mcp-matrix-harness.md) 展示了：预先注册、假设撤回、受控底层模拟、Wilson 置信区间、缓解措施分析以及诚实的局限性说明。 ### 基准测试：DVL-Agent 跨模型注入 - [报告](WRITEUPS/2026-05-14-cross-model-react-loop-injection.md) - [ATTACKS 条目](ATTACKS/2026-05-14-dvl-agent-scenario2-sql-injection.md) 展示了：小样本统计基准测试、跨模型比较、载荷族敏感性以及可复现的实验室报告。 ### 评估：提示策略与执行机制对比 - [报告](WRITEUPS/2026-05-09-policy-isnt-a-mechanism.md) - [ATTACKS 条目](ATTACKS/2026-05-03-indirect-injection-tool-description.md) 展示了：威胁建模、根因分析、缓解措施框架以及面向从业者的沟通。 ## 案例研究为了让招聘经理更快速地浏览，请从 [CASE_STUDIES.md](CASE_STUDIES.md) 开始。它将原始成果重新构建为： - 客户评估， - 研究调查， - 自动化评估 / 基准测试。 ## 索引 - [ATTACKS/](ATTACKS/) - 包含范围、结果、缓解措施和披露状态的可复现攻击条目。 - [WRITEUPS/](WRITEUPS/) - 长篇研究和从业者报告。 - [REPORTS/](REPORTS/) - 面向客户的评估报告。 - [EVALS/](EVALS/) - 测试框架、基准测试和自动化笔记。 - [CTF/](CTF/) - AI 安全挑战赛报告。 - [BOUNTIES/](BOUNTIES/) - 仅限披露后的漏洞赏金成果。 ## 披露策略所有公开条目的范围均严格限定在故意设计为易受攻击的实验室、开放基准测试、公开 CTF 或通用研究模式。特定供应商的发现将保留，直到协调披露完成。公开成果仅使用绿色披露状态。协调披露默认规则：从首次联系供应商起计算 90 天，若 30 天无响应则进行升级处理。本代码库未对任何生产系统进行测试。 ## 本代码库存在的原因其目标是展示对 AI 安全团队有价值的工作成果，这些团队正在招聘智能体红队、自动化红队、模型/工具使用评估以及面向客户的 AI 安全研究方面的人才：可复现的方法、清晰的威胁模型、量化的结果，以及能够向工程团队解释清楚的缓解措施。

标签：AI安全, AI智能体安全, AI漏洞挖掘, API密钥扫描, Chat Copilot, CISA项目, Claude, CVE检测, DLL 劫持, Go语言工具, IP 地址批量处理, Llama 3, MCP安全, Mistral, OWASP LLM Top 10, RAG投毒, 人工智能, 反取证, 大模型安全, 大语言模型, 安全评估, 安全靶场, 提示词注入, 文档安全, 智能体越权, 权限管理, 检索增强生成, 模型上下文协议, 模型越狱, 用户模式Hook绕过, 自动化评估, 逆向工具, 间接提示词注入