confident-ai/deepteam
GitHub: confident-ai/deepteam
一款开源的大模型红队测试框架,用于对 LLM 系统进行对抗性安全评估并提供生产级护栏防护。
Stars: 1440 | Forks: 226
LLM 红队测试框架
文档 |
漏洞、攻击与功能 |
快速入门 |
Confident AI
Deutsch |
Español |
français |
日本語 |
한국어 |
Português |
Русский |
中文
**DeepTeam** 是一个简单易用的开源 LLM 红队测试框架,用于对大语言模型系统进行渗透测试和安全防护。它构建于 [DeepEval](https://github.com/confident-ai/deepeval) —— 一个开源的 LLM 评估框架之上。
DeepTeam 结合了最新的对抗性 AI 研究,利用 SOTA 技术模拟攻击,如越狱、提示注入和多轮攻击,以揭示偏见、PII 泄露和 SQL 注入等可能被忽略的漏洞。无论您的 LLM 系统是 AI Agent、RAG 管道、聊天机器人还是 LLM 本身,DeepTeam 都能帮助您发现安全缺口,并提供**护栏**以防止生产环境中出现问题。
DeepTeam 在**您的机器上本地运行**,并在红队测试期间使用 LLM 进行攻击模拟和评估。
# 🔥 漏洞、攻击与功能
- 📐 50+ 种即用型[漏洞](https://www.trydeepteam.com/docs/red-teaming-vulnerabilities)(均附带说明),由您选择的**任意** LLM 提供支持。每种漏洞都使用在**您的机器上本地运行**的 LLM-as-a-Judge 指标,生成带有推理过程的二元通过/失败分数:
-
数据隐私
- PII Leakage(PII 泄露)—— 直接泄露、会话泄露、数据库访问
- Prompt Leakage(提示泄露)—— 密钥、凭证、系统提示提取
-
负责任 AI
- Bias(偏见)—— 性别、种族、政治、宗教
- Toxicity(毒性)—— 脏话、侮辱、威胁
- Child Protection(儿童保护)—— CSAM、诱导
- Ethics(道德)—— 道德违规
- Fairness(公平性)—— 歧视性结果
-
安全
- BFLA —— 功能级授权失效
- BOLA —— 对象级授权失效
- RBAC —— 基于角色的访问控制绕过
- Debug Access(调试访问)—— 开发端点暴露
- Shell Injection(Shell 注入)—— 命令执行攻击
- SQL Injection(SQL 注入)—— 数据库查询操纵
- SSRF —— 服务器端请求伪造
- Tool Metadata Poisoning(工具元数据投毒)—— 篡改工具描述
- Cross-Context Retrieval(跨上下文检索)—— 跨边界访问数据
- System Reconnaissance(系统侦察)—— 探测 Agent 架构
-
安全性
- Illegal Activity(非法活动)—— 欺诈、武器、毒品
- Graphic Content(图形内容)—— 暴力、色情内容
- Personal Safety(人身安全)—— 自残、危险建议
- Unexpected Code Execution(意外代码执行)—— 任意代码生成
-
业务
- Misinformation(虚假信息)—— 事实错误、无据主张
- Intellectual Property(知识产权)—— 版权侵犯
- Competition(竞争)—— 竞品背书
-
代理
- Goal Theft(目标窃取)—— 提取或重定向 Agent 的目标
- Recursive Hijacking(递归劫持)—— 利用递归 Agent 调用
- Excessive Agency(过度代理)—— Agent 越权行事
- Robustness(鲁棒性)—— 输入过度依赖、劫持
- Indirect Instruction(间接指令)—— 检索内容中的隐藏指令
- Tool Orchestration Abuse(工具编排滥用)—— 利用工具调用序列
- Agent Identity & Trust Abuse(Agent 身份与信任滥用)—— 冒充 Agent 身份
- Inter-Agent Communication Compromise(Agent 间通信受损)—— 利用多 Agent 消息传递
- Autonomous Agent Drift(自主 Agent 偏移)—— Agent 偏离预期目标
- Exploit Tool Agent(利用工具 Agent)—— 利用工具执行意外操作
- External System Abuse(外部系统滥用)—— 使用 Agent 攻击外部服务
-
自定义
- Custom Vulnerabilities(自定义漏洞)—— 通过几行代码定义并测试您自己的自定义标准漏洞
- 💥 20+ 种基于研究的[对抗性攻击](https://www.trydeepteam.com/docs/red-teaming-adversarial-attacks)方法,支持单轮和多轮(对话式)红队测试。这些攻击使用越狱、提示注入和基于编码的混淆等 SOTA 技术增强基准漏洞探测:
-
单轮
- Prompt Injection(提示注入)
- Roleplay(角色扮演)
- Leetspeak(黑客语)
- ROT13
- Base64
- Gray Box(灰盒)
- Math Problem(数学问题)
- Multilingual(多语言)
- Prompt Probing(提示探测)
- Adversarial Poetry(对抗诗歌)
- System Override(系统覆盖)
- Permission Escalation(权限提升)
- Goal Redirection(目标重定向)
- Linguistic Confusion(语言混淆)
- Input Bypass(输入绕过)
- Context Poisoning(上下文投毒)
- Character Stream(字符流)
- Context Flooding(上下文泛洪)
- Embedded Instruction JSON(嵌入式指令 JSON)
- Synthetic Context Injection(合成上下文注入)
- Authority Escalation(权威升级)
- Emotional Manipulation(情感操纵)
-
多轮
- Linear Jailbreaking(线性越狱)
- Tree Jailbreaking(树形越狱)
- Crescendo Jailbreaking(渐强越狱)
- Sequential Jailbreak(顺序越狱)
- Bad Likert Judge(恶意 Likert 评判)
- 🏛️ 开箱即用,针对既定 [AI 安全框架](https://www.trydeepteam.com/docs/guidelines-and-frameworks)进行红队测试。每个框架会自动将其类别映射到相应的漏洞和攻击:
- OWASP Top 10 for LLMs 2025
- OWASP Top 10 for Agents 2026
- NIST AI RMF
- MITRE ATLAS
- BeaverTails
- Aegis
- 🛡️ 7 个生产就绪的[护栏](https://www.trydeepteam.com/docs/guardrails),用于快速二元分类,实时保护 LLM 输入和输出。
- 🧩 构建您自己的**自定义漏洞**和攻击,无缝集成到 DeepTeam 生态系统中。
- 🔗 使用带 YAML 配置的 **CLI** 运行红队测试,或在 Python 中以编程方式运行。
- 📊 访问风险评估,在 DataFrame 中显示,并以 JSON 格式保存在本地。
# 🚀 快速入门
DeepTeam 不要求您定义要红队测试的 LLM 系统 —— 因为恶意用户也不会定义。您只需安装 `deepteam`,定义一个 `model_callback`,即可开始。
## 安装
```
pip install -U deepteam
```
## 红队测试您的第一个 LLM
```
from deepteam import red_team
from deepteam.vulnerabilities import Bias
from deepteam.attacks.single_turn import PromptInjection
async def model_callback(input: str) -> str:
# Replace this with your LLM application
return f"I'm sorry but I can't answer this: {input}"
risk_assessment = red_team(
model_callback=model_callback,
vulnerabilities=[Bias(types=["race"])],
attacks=[PromptInjection()]
)
```
在运行之前,不要忘记将您的 `OPENAI_API_KEY` 设置为环境变量(您也可以使用 DeepEval 支持的[任何自定义模型](https://deepeval.com/guides/guides-using-custom-llms)),然后运行该文件:
```
python red_team_llm.py
```
**就是这样!您的第一次红队测试已完成。** 以下是发生的事情:
- `model_callback` 封装了您的 LLM 系统,并为给定的 `input` 生成 `str` 输出。
- 在红队测试时,`deepteam` 模拟针对 [`Bias`](https://www.trydeepteam.com/docs/red-teaming-vulnerabilities-bias) 漏洞的 [`PromptInjection`](https://www.trydeepteam.com/docs/red-teaming-adversarial-attacks-prompt-injection) 攻击。
- 您的 `model_callback` 的输出使用 `BiasMetric` 进行评估,生成 0 或 1 的二元分数。
- `Bias` 的最终通过率由等于 1 的分数比例决定。
与传统评估不同,红队测试不需要准备好的数据集 —— 对抗性攻击是根据您要测试的漏洞动态生成的。
## 针对安全框架进行红队测试
使用既定的 AI 安全标准(如 OWASP 和 NIST),而不是手动挑选漏洞:
```
from deepteam import red_team
from deepteam.frameworks import OWASPTop10
async def model_callback(input: str) -> str:
# Replace this with your LLM application
return f"I'm sorry but I can't answer this: {input}"
risk_assessment = red_team(
model_callback=model_callback,
framework=OWASPTop10()
)
```
这会自动将框架的类别映射到正确的漏洞和攻击。可用的框架包括 `OWASPTop10`、`OWASP_ASI_2026`、`NIST`、`MITRE`、`Aegis` 和 `BeaverTails`。
## 在生产环境中保护您的 LLM
发现漏洞后,使用 DeepTeam 的护栏在生产环境中防止它们:
```
from deepteam import Guardrails
from deepteam.guardrails import PromptInjectionGuard, ToxicityGuard, PrivacyGuard
guardrails = Guardrails(
input_guards=[PromptInjectionGuard(), PrivacyGuard()],
output_guards=[ToxicityGuard()]
)
# Guard inputs before they reach your LLM
input_result = guardrails.guard_input("Tell me how to hack a database")
print(input_result.breached) # True
# Guard outputs before they reach your users
output_result = guardrails.guard_output(input="Hi", output="Here is some toxic content...")
print(output_result.breached) # True
```
开箱即用提供 7 种防护:`ToxicityGuard`、`PromptInjectionGuard`、`PrivacyGuard`、`IllegalGuard`、`HallucinationGuard`、`TopicalGuard` 和 `CybersecurityGuard`。[在此阅读完整的护栏文档。](https://www.trydeepteam.com/docs/guardrails)
# DeepTeam 与 Confident AI
[Confident AI](https://app.confident-ai.com?utm_source=GitHub) 是一个一站式平台,与 DeepTeam 和 [DeepEval](https://github.com/confident-ai/deepeval) 原生集成。
- **管理风险评估** —— 跨迭代查看、比较和跟踪红队测试结果
- **生产监控** —— 检测并警报触及您在线 LLM 系统的漏洞
- **分享报告** —— 在您的团队中生成和分发安全报告
- **从 IDE 运行** —— 使用 Confident AI 的 MCP 服务器运行红队测试、拉取结果和检查漏洞,无需离开 Cursor 或 Claude Code
# 作者
由 Confident AI 的创始人构建。如有任何询问,请联系 jeffreyip@confident-ai.com。
# 许可证
DeepTeam 根据 Apache 2.0 授权 - 有关详细信息,请参阅 [LICENSE.md](https://github.com/confident-ai/deepteam/blob/main/LICENSE.md) 文件。
标签:AI伦理, ChatGPT安全, DeepTeam, DLL 劫持, DNS解析, Kubernetes 安全, Petitpotam, Python, 人工智能安全, 反取证, 合规性, 域名收集, 大语言模型, 安全评估, 密码管理, 对抗攻击, 开源项目, 提示注入, 敏感信息检测, 无后门, 模型鲁棒性, 私有化部署, 自动化攻击, 越狱检测, 逆向工具, 防御规避, 集群管理