ericrihm/cobalt-airt

GitHub: ericrihm/cobalt-airt

Cobalt AIRT 是一套 AI 红队测试工具包，用于自动化发现 LLM 应用和智能体系统中的提示注入、越狱、工具滥用等安全漏洞。

Stars: 0 | Forks: 0

# Cobalt AIRT — AI Red Team 工具包 **针对 AI 聊天机器人、LLM 应用程序及 agentic 系统的自动化安全测试。** Cobalt AIRT 是一个用于对 AI 系统进行红队测试的综合工具包。它自动化了 prompt injection 测试、jailbreak 发现、classifier evasion、tool-use 滥用以及 agent escape 检测——涵盖了对生产级 AI 进行渗透测试时最重要的 11 个攻击类别。由 [Cobalt Systems](https://cobaltsystems.io) 基于真实的 AI 渗透测试实战经验构建。 ## 测试内容 | 类别 | 攻击面 | OWASP LLM Top 10 | |----------|---------------|-------------------| | **Prompt Injection** | 直接与间接注入、上下文操纵 | LLM01 | | **Jailbreak** | System prompt 提取、角色扮演逃逸、多轮对话升级 | LLM01 | | **Classifier Evasion** | 绕过安全过滤器、编码技巧、语言切换 | LLM01 | | **Sensitive Disclosure** | 训练数据提取、PII 泄露、system prompt 导出 | LLM06 | | **Tool Abuse** | MCP/function-call 注入、参数篡改、chain-of-tool 攻击 | LLM01, LLM07 | | **Agent Escape** | 沙箱逃逸、权限提升、资源滥用 | LLM08 | | **Denial of Service** | Token 耗尽、递归循环、context window 泛洪 | LLM04 | | **Output Manipulation** | 响应引导、格式注入、下游投毒 | LLM02 | | **Data Poisoning** | RAG 语料库注入、few-shot 投毒、embedding 操纵 | LLM03 | | **Supply Chain** | 模型替换、插件后门、MCP 服务器受损 | LLM05 | | **Excessive Agency** | 自主性滥用、未授权操作、范围蔓延利用 | LLM08 | ## 快速开始 ``` pip install cobalt-airt # 针对 chatbot endpoint 运行基本的 prompt injection 扫描 airt scan --target https://api.example.com/chat --profile basic # 运行完整的 11 类别评估 airt scan --target https://api.example.com/chat --profile full # 生成 pentest 报告 airt report --format html --output report.html ``` ## 架构 ``` cobalt_airt/ ├── attacks/ # Attack modules (one per category) │ ├── prompt_injection.py │ ├── jailbreak.py │ ├── classifier_evasion.py │ ├── sensitive_disclosure.py │ ├── tool_abuse.py │ ├── agent_escape.py │ ├── dos.py │ ├── output_manipulation.py │ ├── data_poisoning.py │ ├── supply_chain.py │ └── excessive_agency.py ├── payloads/ # Jinja2 payload templates ├── classifiers/ # Response classifiers (success/fail/partial) ├── targets/ # Target adapters (OpenAI, Anthropic, custom HTTP) ├── reporting/ # HTML/PDF/JSON report generation ├── evasion/ # Encoding, obfuscation, and delivery techniques └── cli.py # Click CLI entry point ``` ## 目标适配器 AIRT 内置了适用于常见 AI endpoint 的适配器： - **OpenAI Chat Completions** (`openai`) — GPT-4, GPT-4o, o-series - **Anthropic Messages** (`anthropic`) — Claude 模型 - **Generic HTTP** (`http`) — 任何 REST 聊天机器人 endpoint - **MCP Server** (`mcp`) — 测试 MCP 工具实现 - **自定义** — 通过 Python 类引入您自己的适配器 ## Payload 库 AIRT 包含了涵盖所有 11 个类别的 500 多个精选 payload，来源包括： - 真实的渗透测试实战 - 已发表的研究（arXiv、学术会议） - 社区贡献（HackAPrompt、Gandalf 等） - Jason Haddix 的“Defending AI”框架 - ContinuumCon 2026 prompt injection 研究 - OWASP LLM Top 10 测试用例 ## 报告 AIRT 生成专业的渗透测试报告，包含： - 附带风险评级的执行摘要 - 带有概念验证的各分类发现 - 修复指南（防御控制措施映射至每种攻击） - OWASP LLM Top 10 合规性矩阵 - 证据截图和响应日志 ## 许可证 Apache 2.0 — 请参阅 [LICENSE](LICENSE)。 ## 鸣谢受到以下人员/机构工作的启发： - [Jason Haddix](https://twitter.com/jhaddix) (Arcanum) — “Defending AI”框架 - [Lauren Pearl](https://twitter.com/) (THOR Collective / Marsh) — HEARTH & PEAK 假设方法论 - BHIS Threat Hunting Summit 2026 - ContinuumCon 2026 — Eva Ben & Andrew Bellini prompt injection 研究 - OWASP LLM Top 10 项目

标签：CISA项目, DLL 劫持, Web报告查看器, 人工智能, 反取证, 大语言模型, 安全评估, 用户模式Hook绕过, 逆向工具