rexcoleman/agent-redteam-framework
GitHub: rexcoleman/agent-redteam-framework
一个面向 LLM Agent 的开源红队测试框架,系统化覆盖 7 类攻击向量并提供分层防御评估能力。
Stars: 0 | Forks: 0
# Agent 安全红队框架
用于系统性发现自主 AI Agent 漏洞的开源框架。
## 主要发现
- **7 种攻击类别**被系统化整理为可复用的分类法(其中 5 种未被 OWASP LLM Top 10 / MITRE ATLAS 覆盖)
- **推理链劫持**:针对默认配置的 LangChain ReAct Agent(Claude Sonnet,3 个种子)成功率达 100%——这是测试中最危险的 Agent 特定攻击模式
- **分层防御**将整体攻击成功率降低了 60%
- **对抗性控制分析**在 3 个领域(IDS、CVE 预测、Agent)中得到了验证


## 快速开始
```
# 克隆并安装
git clone https://github.com/rexcoleman/agent-redteam-framework.git
cd agent-redteam-framework
conda env create -f environment.yml
conda activate agent-redteam
pip install -e .
# 设置 API key
export ANTHROPIC_API_KEY="sk-ant-api03-..."
# 验证环境
agent-redteam verify-env
# 对 LangChain ReAct agent 运行攻击
agent-redteam scan --agent langchain_react --attack all --seed 42
# 评估防御
agent-redteam defend --agent langchain_react --defense layered --seed 42
# 生成图表
agent-redteam figures
```
## 攻击分类法
| 类别 | 成功率 | 状态 |
|-------|-------------|--------|
| 直接提示词注入 | 80% | 已知 (OWASP LLM01) |
| 通过工具的间接注入 | 25% | 部分已知 |
| **工具权限边界违规** | **75%** | **已系统化** |
| **记忆/上下文投毒** | **67%** | **已系统化** |
| **推理链劫持** | **100%** | **新模式** |
完整分类法请参阅 [`docs/attack_taxonomy.md`](docs/attack_taxonomy.md),详细结果请参阅 [`FINDINGS.md`](FINDINGS.md)。
## 架构
```
src/
agents/ # Agent target abstractions (LangChain, CrewAI)
attacks/ # Attack class implementations
defenses/ # Defense layers (input sanitizer, tool boundary, layered)
core/ # Config, types, logging
cli.py # CLI entry point
scripts/ # Experiment runners + govML-generated scripts
config/ # YAML configuration (agents, attacks, defenses)
data/tasks/ # YAML-driven attack scenarios
docs/ # govML governance documents (22 templates)
blog/ # Blog draft + conference abstract + images
```
## 项目治理
使用 [govML](https://github.com/rexcoleman/govML) v2.4(security-ml 配置,22 个模板)构建。关键治理文档:
- [`docs/PROJECT_BRIEF.md`](docs/PROJECT_BRIEF.md) — 论文、研究问题、成功标准
- [`docs/DECISION_LOG.md`](docs/DECISION_LOG.md) — 3 项架构决策记录
- [`docs/ADVERSARIAL_EVALUATION.md`](docs/ADVERSARIAL_EVALUATION.md) — 威胁模型 + 可控性矩阵
- [`docs/PUBLICATION_PIPELINE.md`](docs/PUBLICATION_PIPELINE.md) — 博客分发治理
## 许可证
MIT
标签:AI对抗攻击, AI智能体, Claude, CrewAI, CVE检测, LangChain, MITRE ATLAS, OWASP LLM, Python安全工具, 上下文污染, 域名收集, 大模型应用安全, 推理链劫持, 文档结构分析, 权限边界, 结构化查询, 自动化安全, 轻量级, 逆向工具