ericrihm/cobalt-airt
GitHub: ericrihm/cobalt-airt
Cobalt AIRT 是一套 AI 红队测试工具包,用于自动化发现 LLM 应用和智能体系统中的提示注入、越狱、工具滥用等安全漏洞。
Stars: 0 | Forks: 0
# Cobalt AIRT — AI Red Team 工具包
**针对 AI 聊天机器人、LLM 应用程序及 agentic 系统的自动化安全测试。**
Cobalt AIRT 是一个用于对 AI 系统进行红队测试的综合工具包。它自动化了 prompt injection 测试、jailbreak 发现、classifier evasion、tool-use 滥用以及 agent escape 检测——涵盖了对生产级 AI 进行渗透测试时最重要的 11 个攻击类别。
由 [Cobalt Systems](https://cobaltsystems.io) 基于真实的 AI 渗透测试实战经验构建。
## 测试内容
| 类别 | 攻击面 | OWASP LLM Top 10 |
|----------|---------------|-------------------|
| **Prompt Injection** | 直接与间接注入、上下文操纵 | LLM01 |
| **Jailbreak** | System prompt 提取、角色扮演逃逸、多轮对话升级 | LLM01 |
| **Classifier Evasion** | 绕过安全过滤器、编码技巧、语言切换 | LLM01 |
| **Sensitive Disclosure** | 训练数据提取、PII 泄露、system prompt 导出 | LLM06 |
| **Tool Abuse** | MCP/function-call 注入、参数篡改、chain-of-tool 攻击 | LLM01, LLM07 |
| **Agent Escape** | 沙箱逃逸、权限提升、资源滥用 | LLM08 |
| **Denial of Service** | Token 耗尽、递归循环、context window 泛洪 | LLM04 |
| **Output Manipulation** | 响应引导、格式注入、下游投毒 | LLM02 |
| **Data Poisoning** | RAG 语料库注入、few-shot 投毒、embedding 操纵 | LLM03 |
| **Supply Chain** | 模型替换、插件后门、MCP 服务器受损 | LLM05 |
| **Excessive Agency** | 自主性滥用、未授权操作、范围蔓延利用 | LLM08 |
## 快速开始
```
pip install cobalt-airt
# 针对 chatbot endpoint 运行基本的 prompt injection 扫描
airt scan --target https://api.example.com/chat --profile basic
# 运行完整的 11 类别评估
airt scan --target https://api.example.com/chat --profile full
# 生成 pentest 报告
airt report --format html --output report.html
```
## 架构
```
cobalt_airt/
├── attacks/ # Attack modules (one per category)
│ ├── prompt_injection.py
│ ├── jailbreak.py
│ ├── classifier_evasion.py
│ ├── sensitive_disclosure.py
│ ├── tool_abuse.py
│ ├── agent_escape.py
│ ├── dos.py
│ ├── output_manipulation.py
│ ├── data_poisoning.py
│ ├── supply_chain.py
│ └── excessive_agency.py
├── payloads/ # Jinja2 payload templates
├── classifiers/ # Response classifiers (success/fail/partial)
├── targets/ # Target adapters (OpenAI, Anthropic, custom HTTP)
├── reporting/ # HTML/PDF/JSON report generation
├── evasion/ # Encoding, obfuscation, and delivery techniques
└── cli.py # Click CLI entry point
```
## 目标适配器
AIRT 内置了适用于常见 AI endpoint 的适配器:
- **OpenAI Chat Completions** (`openai`) — GPT-4, GPT-4o, o-series
- **Anthropic Messages** (`anthropic`) — Claude 模型
- **Generic HTTP** (`http`) — 任何 REST 聊天机器人 endpoint
- **MCP Server** (`mcp`) — 测试 MCP 工具实现
- **自定义** — 通过 Python 类引入您自己的适配器
## Payload 库
AIRT 包含了涵盖所有 11 个类别的 500 多个精选 payload,来源包括:
- 真实的渗透测试实战
- 已发表的研究(arXiv、学术会议)
- 社区贡献(HackAPrompt、Gandalf 等)
- Jason Haddix 的“Defending AI”框架
- ContinuumCon 2026 prompt injection 研究
- OWASP LLM Top 10 测试用例
## 报告
AIRT 生成专业的渗透测试报告,包含:
- 附带风险评级的执行摘要
- 带有概念验证的各分类发现
- 修复指南(防御控制措施映射至每种攻击)
- OWASP LLM Top 10 合规性矩阵
- 证据截图和响应日志
## 许可证
Apache 2.0 — 请参阅 [LICENSE](LICENSE)。
## 鸣谢
受到以下人员/机构工作的启发:
- [Jason Haddix](https://twitter.com/jhaddix) (Arcanum) — “Defending AI”框架
- [Lauren Pearl](https://twitter.com/) (THOR Collective / Marsh) — HEARTH & PEAK 假设方法论
- BHIS Threat Hunting Summit 2026
- ContinuumCon 2026 — Eva Ben & Andrew Bellini prompt injection 研究
- OWASP LLM Top 10 项目
标签:CISA项目, DLL 劫持, Web报告查看器, 人工智能, 反取证, 大语言模型, 安全评估, 用户模式Hook绕过, 逆向工具