rexcoleman/agent-redteam-framework

GitHub: rexcoleman/agent-redteam-framework

一个面向 LLM Agent 的开源红队测试框架，系统化覆盖 7 类攻击向量并提供分层防御评估能力。

Stars: 0 | Forks: 0

# Agent 安全红队框架用于系统性发现自主 AI Agent 漏洞的开源框架。 ## 主要发现 - **7 种攻击类别**被系统化整理为可复用的分类法（其中 5 种未被 OWASP LLM Top 10 / MITRE ATLAS 覆盖） - **推理链劫持**：针对默认配置的 LangChain ReAct Agent（Claude Sonnet，3 个种子）成功率达 100%——这是测试中最危险的 Agent 特定攻击模式 - **分层防御**将整体攻击成功率降低了 60% - **对抗性控制分析**在 3 个领域（IDS、CVE 预测、Agent）中得到了验证 ![攻击成功率](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/ccfc63b7b6111738.png) ![防御对比](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/ea0fba8322111747.png) ## 快速开始 ``` # 克隆并安装 git clone https://github.com/rexcoleman/agent-redteam-framework.git cd agent-redteam-framework conda env create -f environment.yml conda activate agent-redteam pip install -e . # 设置 API key export ANTHROPIC_API_KEY="sk-ant-api03-..." # 验证环境 agent-redteam verify-env # 对 LangChain ReAct agent 运行攻击 agent-redteam scan --agent langchain_react --attack all --seed 42 # 评估防御 agent-redteam defend --agent langchain_react --defense layered --seed 42 # 生成图表 agent-redteam figures ``` ## 攻击分类法 | 类别 | 成功率 | 状态 | |-------|-------------|--------| | 直接提示词注入 | 80% | 已知 (OWASP LLM01) | | 通过工具的间接注入 | 25% | 部分已知 | | **工具权限边界违规** | **75%** | **已系统化** | | **记忆/上下文投毒** | **67%** | **已系统化** | | **推理链劫持** | **100%** | **新模式** | 完整分类法请参阅 [`docs/attack_taxonomy.md`](docs/attack_taxonomy.md)，详细结果请参阅 [`FINDINGS.md`](FINDINGS.md)。 ## 架构 ``` src/ agents/ # Agent target abstractions (LangChain, CrewAI) attacks/ # Attack class implementations defenses/ # Defense layers (input sanitizer, tool boundary, layered) core/ # Config, types, logging cli.py # CLI entry point scripts/ # Experiment runners + govML-generated scripts config/ # YAML configuration (agents, attacks, defenses) data/tasks/ # YAML-driven attack scenarios docs/ # govML governance documents (22 templates) blog/ # Blog draft + conference abstract + images ``` ## 项目治理使用 [govML](https://github.com/rexcoleman/govML) v2.4（security-ml 配置，22 个模板）构建。关键治理文档： - [`docs/PROJECT_BRIEF.md`](docs/PROJECT_BRIEF.md) — 论文、研究问题、成功标准 - [`docs/DECISION_LOG.md`](docs/DECISION_LOG.md) — 3 项架构决策记录 - [`docs/ADVERSARIAL_EVALUATION.md`](docs/ADVERSARIAL_EVALUATION.md) — 威胁模型 + 可控性矩阵 - [`docs/PUBLICATION_PIPELINE.md`](docs/PUBLICATION_PIPELINE.md) — 博客分发治理 ## 许可证 MIT

标签：AI对抗攻击, AI智能体, Claude, CrewAI, CVE检测, LangChain, MITRE ATLAS, OWASP LLM, Python安全工具, 上下文污染, 域名收集, 大模型应用安全, 推理链劫持, 文档结构分析, 权限边界, 结构化查询, 自动化安全, 轻量级, 逆向工具