confident-ai/deepteam

GitHub: confident-ai/deepteam

一款开源的大模型红队测试框架，用于对 LLM 系统进行对抗性安全评估并提供生产级护栏防护。

Stars: 1440 | Forks: 226

DeepTeam Logo

LLM 红队测试框架

文档 | 漏洞、攻击与功能 | 快速入门 | Confident AI

**DeepTeam** 是一个简单易用的开源 LLM 红队测试框架，用于对大语言模型系统进行渗透测试和安全防护。它构建于 [DeepEval](https://github.com/confident-ai/deepeval) —— 一个开源的 LLM 评估框架之上。 DeepTeam 结合了最新的对抗性 AI 研究，利用 SOTA 技术模拟攻击，如越狱、提示注入和多轮攻击，以揭示偏见、PII 泄露和 SQL 注入等可能被忽略的漏洞。无论您的 LLM 系统是 AI Agent、RAG 管道、聊天机器人还是 LLM 本身，DeepTeam 都能帮助您发现安全缺口，并提供**护栏**以防止生产环境中出现问题。 DeepTeam 在**您的机器上本地运行**，并在红队测试期间使用 LLM 进行攻击模拟和评估。

Confident AI + DeepTeam

# 🔥 漏洞、攻击与功能 - 📐 50+ 种即用型[漏洞](https://www.trydeepteam.com/docs/red-teaming-vulnerabilities)（均附带说明），由您选择的**任意** LLM 提供支持。每种漏洞都使用在**您的机器上本地运行**的 LLM-as-a-Judge 指标，生成带有推理过程的二元通过/失败分数： -

数据隐私

- PII Leakage（PII 泄露）—— 直接泄露、会话泄露、数据库访问 - Prompt Leakage（提示泄露）—— 密钥、凭证、系统提示提取

负责任 AI

- Bias（偏见）—— 性别、种族、政治、宗教 - Toxicity（毒性）—— 脏话、侮辱、威胁 - Child Protection（儿童保护）—— CSAM、诱导 - Ethics（道德）—— 道德违规 - Fairness（公平性）—— 歧视性结果

安全

- BFLA —— 功能级授权失效 - BOLA —— 对象级授权失效 - RBAC —— 基于角色的访问控制绕过 - Debug Access（调试访问）—— 开发端点暴露 - Shell Injection（Shell 注入）—— 命令执行攻击 - SQL Injection（SQL 注入）—— 数据库查询操纵 - SSRF —— 服务器端请求伪造 - Tool Metadata Poisoning（工具元数据投毒）—— 篡改工具描述 - Cross-Context Retrieval（跨上下文检索）—— 跨边界访问数据 - System Reconnaissance（系统侦察）—— 探测 Agent 架构

安全性

- Illegal Activity（非法活动）—— 欺诈、武器、毒品 - Graphic Content（图形内容）—— 暴力、色情内容 - Personal Safety（人身安全）—— 自残、危险建议 - Unexpected Code Execution（意外代码执行）—— 任意代码生成

业务

- Misinformation（虚假信息）—— 事实错误、无据主张 - Intellectual Property（知识产权）—— 版权侵犯 - Competition（竞争）—— 竞品背书

代理

- Goal Theft（目标窃取）—— 提取或重定向 Agent 的目标 - Recursive Hijacking（递归劫持）—— 利用递归 Agent 调用 - Excessive Agency（过度代理）—— Agent 越权行事 - Robustness（鲁棒性）—— 输入过度依赖、劫持 - Indirect Instruction（间接指令）—— 检索内容中的隐藏指令 - Tool Orchestration Abuse（工具编排滥用）—— 利用工具调用序列 - Agent Identity & Trust Abuse（Agent 身份与信任滥用）—— 冒充 Agent 身份 - Inter-Agent Communication Compromise（Agent 间通信受损）—— 利用多 Agent 消息传递 - Autonomous Agent Drift（自主 Agent 偏移）—— Agent 偏离预期目标 - Exploit Tool Agent（利用工具 Agent）—— 利用工具执行意外操作 - External System Abuse（外部系统滥用）—— 使用 Agent 攻击外部服务

自定义

- Custom Vulnerabilities（自定义漏洞）—— 通过几行代码定义并测试您自己的自定义标准漏洞

- 💥 20+ 种基于研究的[对抗性攻击](https://www.trydeepteam.com/docs/red-teaming-adversarial-attacks)方法，支持单轮和多轮（对话式）红队测试。这些攻击使用越狱、提示注入和基于编码的混淆等 SOTA 技术增强基准漏洞探测： -

单轮

- Prompt Injection（提示注入） - Roleplay（角色扮演） - Leetspeak（黑客语） - ROT13 - Base64 - Gray Box（灰盒） - Math Problem（数学问题） - Multilingual（多语言） - Prompt Probing（提示探测） - Adversarial Poetry（对抗诗歌） - System Override（系统覆盖） - Permission Escalation（权限提升） - Goal Redirection（目标重定向） - Linguistic Confusion（语言混淆） - Input Bypass（输入绕过） - Context Poisoning（上下文投毒） - Character Stream（字符流） - Context Flooding（上下文泛洪） - Embedded Instruction JSON（嵌入式指令 JSON） - Synthetic Context Injection（合成上下文注入） - Authority Escalation（权威升级） - Emotional Manipulation（情感操纵）

多轮

- Linear Jailbreaking（线性越狱） - Tree Jailbreaking（树形越狱） - Crescendo Jailbreaking（渐强越狱） - Sequential Jailbreak（顺序越狱） - Bad Likert Judge（恶意 Likert 评判）

- 🏛️ 开箱即用，针对既定 [AI 安全框架](https://www.trydeepteam.com/docs/guidelines-and-frameworks)进行红队测试。每个框架会自动将其类别映射到相应的漏洞和攻击： - OWASP Top 10 for LLMs 2025 - OWASP Top 10 for Agents 2026 - NIST AI RMF - MITRE ATLAS - BeaverTails - Aegis - 🛡️ 7 个生产就绪的[护栏](https://www.trydeepteam.com/docs/guardrails)，用于快速二元分类，实时保护 LLM 输入和输出。 - 🧩 构建您自己的**自定义漏洞**和攻击，无缝集成到 DeepTeam 生态系统中。 - 🔗 使用带 YAML 配置的 **CLI** 运行红队测试，或在 Python 中以编程方式运行。 - 📊 访问风险评估，在 DataFrame 中显示，并以 JSON 格式保存在本地。 # 🚀 快速入门 DeepTeam 不要求您定义要红队测试的 LLM 系统 —— 因为恶意用户也不会定义。您只需安装 `deepteam`，定义一个 `model_callback`，即可开始。 ## 安装 ``` pip install -U deepteam ``` ## 红队测试您的第一个 LLM ``` from deepteam import red_team from deepteam.vulnerabilities import Bias from deepteam.attacks.single_turn import PromptInjection async def model_callback(input: str) -> str: # Replace this with your LLM application return f"I'm sorry but I can't answer this: {input}" risk_assessment = red_team( model_callback=model_callback, vulnerabilities=[Bias(types=["race"])], attacks=[PromptInjection()] ) ``` 在运行之前，不要忘记将您的 `OPENAI_API_KEY` 设置为环境变量（您也可以使用 DeepEval 支持的[任何自定义模型](https://deepeval.com/guides/guides-using-custom-llms)），然后运行该文件： ``` python red_team_llm.py ``` **就是这样！您的第一次红队测试已完成。** 以下是发生的事情： - `model_callback` 封装了您的 LLM 系统，并为给定的 `input` 生成 `str` 输出。 - 在红队测试时，`deepteam` 模拟针对 [`Bias`](https://www.trydeepteam.com/docs/red-teaming-vulnerabilities-bias) 漏洞的 [`PromptInjection`](https://www.trydeepteam.com/docs/red-teaming-adversarial-attacks-prompt-injection) 攻击。 - 您的 `model_callback` 的输出使用 `BiasMetric` 进行评估，生成 0 或 1 的二元分数。 - `Bias` 的最终通过率由等于 1 的分数比例决定。与传统评估不同，红队测试不需要准备好的数据集 —— 对抗性攻击是根据您要测试的漏洞动态生成的。 ## 针对安全框架进行红队测试使用既定的 AI 安全标准（如 OWASP 和 NIST），而不是手动挑选漏洞： ``` from deepteam import red_team from deepteam.frameworks import OWASPTop10 async def model_callback(input: str) -> str: # Replace this with your LLM application return f"I'm sorry but I can't answer this: {input}" risk_assessment = red_team( model_callback=model_callback, framework=OWASPTop10() ) ``` 这会自动将框架的类别映射到正确的漏洞和攻击。可用的框架包括 `OWASPTop10`、`OWASP_ASI_2026`、`NIST`、`MITRE`、`Aegis` 和 `BeaverTails`。 ## 在生产环境中保护您的 LLM 发现漏洞后，使用 DeepTeam 的护栏在生产环境中防止它们： ``` from deepteam import Guardrails from deepteam.guardrails import PromptInjectionGuard, ToxicityGuard, PrivacyGuard guardrails = Guardrails( input_guards=[PromptInjectionGuard(), PrivacyGuard()], output_guards=[ToxicityGuard()] ) # Guard inputs before they reach your LLM input_result = guardrails.guard_input("Tell me how to hack a database") print(input_result.breached) # True # Guard outputs before they reach your users output_result = guardrails.guard_output(input="Hi", output="Here is some toxic content...") print(output_result.breached) # True ``` 开箱即用提供 7 种防护：`ToxicityGuard`、`PromptInjectionGuard`、`PrivacyGuard`、`IllegalGuard`、`HallucinationGuard`、`TopicalGuard` 和 `CybersecurityGuard`。[在此阅读完整的护栏文档。](https://www.trydeepteam.com/docs/guardrails) # DeepTeam 与 Confident AI [Confident AI](https://app.confident-ai.com?utm_source=GitHub) 是一个一站式平台，与 DeepTeam 和 [DeepEval](https://github.com/confident-ai/deepeval) 原生集成。 - **管理风险评估** —— 跨迭代查看、比较和跟踪红队测试结果 - **生产监控** —— 检测并警报触及您在线 LLM 系统的漏洞 - **分享报告** —— 在您的团队中生成和分发安全报告 - **从 IDE 运行** —— 使用 Confident AI 的 MCP 服务器运行红队测试、拉取结果和检查漏洞，无需离开 Cursor 或 Claude Code

Confident AI

# 作者由 Confident AI 的创始人构建。如有任何询问，请联系 jeffreyip@confident-ai.com。 # 许可证 DeepTeam 根据 Apache 2.0 授权 - 有关详细信息，请参阅 [LICENSE.md](https://github.com/confident-ai/deepteam/blob/main/LICENSE.md) 文件。

标签：AI伦理, ChatGPT安全, DeepTeam, DLL 劫持, DNS解析, Kubernetes 安全, Petitpotam, Python, 人工智能安全, 反取证, 合规性, 域名收集, 大语言模型, 安全评估, 密码管理, 对抗攻击, 开源项目, 提示注入, 敏感信息检测, 无后门, 模型鲁棒性, 私有化部署, 自动化攻击, 越狱检测, 逆向工具, 防御规避, 集群管理