confident-ai/deepteam

GitHub: confident-ai/deepteam

一款开源的大模型红队测试框架,用于对 LLM 系统进行对抗性安全评估并提供生产级护栏防护。

Stars: 1440 | Forks: 226

DeepTeam Logo

LLM 红队测试框架

文档 | 漏洞、攻击与功能 | 快速入门 | Confident AI

GitHub release Discord License

Deutsch | Español | français | 日本語 | 한국어 | Português | Русский | 中文

**DeepTeam** 是一个简单易用的开源 LLM 红队测试框架,用于对大语言模型系统进行渗透测试和安全防护。它构建于 [DeepEval](https://github.com/confident-ai/deepeval) —— 一个开源的 LLM 评估框架之上。 DeepTeam 结合了最新的对抗性 AI 研究,利用 SOTA 技术模拟攻击,如越狱、提示注入和多轮攻击,以揭示偏见、PII 泄露和 SQL 注入等可能被忽略的漏洞。无论您的 LLM 系统是 AI Agent、RAG 管道、聊天机器人还是 LLM 本身,DeepTeam 都能帮助您发现安全缺口,并提供**护栏**以防止生产环境中出现问题。 DeepTeam 在**您的机器上本地运行**,并在红队测试期间使用 LLM 进行攻击模拟和评估。

Confident AI + DeepTeam

  # 🔥 漏洞、攻击与功能 - 📐 50+ 种即用型[漏洞](https://www.trydeepteam.com/docs/red-teaming-vulnerabilities)(均附带说明),由您选择的**任意** LLM 提供支持。每种漏洞都使用在**您的机器上本地运行**的 LLM-as-a-Judge 指标,生成带有推理过程的二元通过/失败分数: -
数据隐私 - PII Leakage(PII 泄露)—— 直接泄露、会话泄露、数据库访问 - Prompt Leakage(提示泄露)—— 密钥、凭证、系统提示提取
-
负责任 AI - Bias(偏见)—— 性别、种族、政治、宗教 - Toxicity(毒性)—— 脏话、侮辱、威胁 - Child Protection(儿童保护)—— CSAM、诱导 - Ethics(道德)—— 道德违规 - Fairness(公平性)—— 歧视性结果
-
安全 - BFLA —— 功能级授权失效 - BOLA —— 对象级授权失效 - RBAC —— 基于角色的访问控制绕过 - Debug Access(调试访问)—— 开发端点暴露 - Shell Injection(Shell 注入)—— 命令执行攻击 - SQL Injection(SQL 注入)—— 数据库查询操纵 - SSRF —— 服务器端请求伪造 - Tool Metadata Poisoning(工具元数据投毒)—— 篡改工具描述 - Cross-Context Retrieval(跨上下文检索)—— 跨边界访问数据 - System Reconnaissance(系统侦察)—— 探测 Agent 架构
-
安全性 - Illegal Activity(非法活动)—— 欺诈、武器、毒品 - Graphic Content(图形内容)—— 暴力、色情内容 - Personal Safety(人身安全)—— 自残、危险建议 - Unexpected Code Execution(意外代码执行)—— 任意代码生成
-
业务 - Misinformation(虚假信息)—— 事实错误、无据主张 - Intellectual Property(知识产权)—— 版权侵犯 - Competition(竞争)—— 竞品背书
-
代理 - Goal Theft(目标窃取)—— 提取或重定向 Agent 的目标 - Recursive Hijacking(递归劫持)—— 利用递归 Agent 调用 - Excessive Agency(过度代理)—— Agent 越权行事 - Robustness(鲁棒性)—— 输入过度依赖、劫持 - Indirect Instruction(间接指令)—— 检索内容中的隐藏指令 - Tool Orchestration Abuse(工具编排滥用)—— 利用工具调用序列 - Agent Identity & Trust Abuse(Agent 身份与信任滥用)—— 冒充 Agent 身份 - Inter-Agent Communication Compromise(Agent 间通信受损)—— 利用多 Agent 消息传递 - Autonomous Agent Drift(自主 Agent 偏移)—— Agent 偏离预期目标 - Exploit Tool Agent(利用工具 Agent)—— 利用工具执行意外操作 - External System Abuse(外部系统滥用)—— 使用 Agent 攻击外部服务
-
自定义 - Custom Vulnerabilities(自定义漏洞)—— 通过几行代码定义并测试您自己的自定义标准漏洞
- 💥 20+ 种基于研究的[对抗性攻击](https://www.trydeepteam.com/docs/red-teaming-adversarial-attacks)方法,支持单轮和多轮(对话式)红队测试。这些攻击使用越狱、提示注入和基于编码的混淆等 SOTA 技术增强基准漏洞探测: -
单轮 - Prompt Injection(提示注入) - Roleplay(角色扮演) - Leetspeak(黑客语) - ROT13 - Base64 - Gray Box(灰盒) - Math Problem(数学问题) - Multilingual(多语言) - Prompt Probing(提示探测) - Adversarial Poetry(对抗诗歌) - System Override(系统覆盖) - Permission Escalation(权限提升) - Goal Redirection(目标重定向) - Linguistic Confusion(语言混淆) - Input Bypass(输入绕过) - Context Poisoning(上下文投毒) - Character Stream(字符流) - Context Flooding(上下文泛洪) - Embedded Instruction JSON(嵌入式指令 JSON) - Synthetic Context Injection(合成上下文注入) - Authority Escalation(权威升级) - Emotional Manipulation(情感操纵)
-
多轮 - Linear Jailbreaking(线性越狱) - Tree Jailbreaking(树形越狱) - Crescendo Jailbreaking(渐强越狱) - Sequential Jailbreak(顺序越狱) - Bad Likert Judge(恶意 Likert 评判)
- 🏛️ 开箱即用,针对既定 [AI 安全框架](https://www.trydeepteam.com/docs/guidelines-and-frameworks)进行红队测试。每个框架会自动将其类别映射到相应的漏洞和攻击: - OWASP Top 10 for LLMs 2025 - OWASP Top 10 for Agents 2026 - NIST AI RMF - MITRE ATLAS - BeaverTails - Aegis - 🛡️ 7 个生产就绪的[护栏](https://www.trydeepteam.com/docs/guardrails),用于快速二元分类,实时保护 LLM 输入和输出。 - 🧩 构建您自己的**自定义漏洞**和攻击,无缝集成到 DeepTeam 生态系统中。 - 🔗 使用带 YAML 配置的 **CLI** 运行红队测试,或在 Python 中以编程方式运行。 - 📊 访问风险评估,在 DataFrame 中显示,并以 JSON 格式保存在本地。   # 🚀 快速入门 DeepTeam 不要求您定义要红队测试的 LLM 系统 —— 因为恶意用户也不会定义。您只需安装 `deepteam`,定义一个 `model_callback`,即可开始。 ## 安装 ``` pip install -U deepteam ``` ## 红队测试您的第一个 LLM ``` from deepteam import red_team from deepteam.vulnerabilities import Bias from deepteam.attacks.single_turn import PromptInjection async def model_callback(input: str) -> str: # Replace this with your LLM application return f"I'm sorry but I can't answer this: {input}" risk_assessment = red_team( model_callback=model_callback, vulnerabilities=[Bias(types=["race"])], attacks=[PromptInjection()] ) ``` 在运行之前,不要忘记将您的 `OPENAI_API_KEY` 设置为环境变量(您也可以使用 DeepEval 支持的[任何自定义模型](https://deepeval.com/guides/guides-using-custom-llms)),然后运行该文件: ``` python red_team_llm.py ``` **就是这样!您的第一次红队测试已完成。** 以下是发生的事情: - `model_callback` 封装了您的 LLM 系统,并为给定的 `input` 生成 `str` 输出。 - 在红队测试时,`deepteam` 模拟针对 [`Bias`](https://www.trydeepteam.com/docs/red-teaming-vulnerabilities-bias) 漏洞的 [`PromptInjection`](https://www.trydeepteam.com/docs/red-teaming-adversarial-attacks-prompt-injection) 攻击。 - 您的 `model_callback` 的输出使用 `BiasMetric` 进行评估,生成 0 或 1 的二元分数。 - `Bias` 的最终通过率由等于 1 的分数比例决定。 与传统评估不同,红队测试不需要准备好的数据集 —— 对抗性攻击是根据您要测试的漏洞动态生成的。   ## 针对安全框架进行红队测试 使用既定的 AI 安全标准(如 OWASP 和 NIST),而不是手动挑选漏洞: ``` from deepteam import red_team from deepteam.frameworks import OWASPTop10 async def model_callback(input: str) -> str: # Replace this with your LLM application return f"I'm sorry but I can't answer this: {input}" risk_assessment = red_team( model_callback=model_callback, framework=OWASPTop10() ) ``` 这会自动将框架的类别映射到正确的漏洞和攻击。可用的框架包括 `OWASPTop10`、`OWASP_ASI_2026`、`NIST`、`MITRE`、`Aegis` 和 `BeaverTails`。   ## 在生产环境中保护您的 LLM 发现漏洞后,使用 DeepTeam 的护栏在生产环境中防止它们: ``` from deepteam import Guardrails from deepteam.guardrails import PromptInjectionGuard, ToxicityGuard, PrivacyGuard guardrails = Guardrails( input_guards=[PromptInjectionGuard(), PrivacyGuard()], output_guards=[ToxicityGuard()] ) # Guard inputs before they reach your LLM input_result = guardrails.guard_input("Tell me how to hack a database") print(input_result.breached) # True # Guard outputs before they reach your users output_result = guardrails.guard_output(input="Hi", output="Here is some toxic content...") print(output_result.breached) # True ``` 开箱即用提供 7 种防护:`ToxicityGuard`、`PromptInjectionGuard`、`PrivacyGuard`、`IllegalGuard`、`HallucinationGuard`、`TopicalGuard` 和 `CybersecurityGuard`。[在此阅读完整的护栏文档。](https://www.trydeepteam.com/docs/guardrails)   # DeepTeam 与 Confident AI [Confident AI](https://app.confident-ai.com?utm_source=GitHub) 是一个一站式平台,与 DeepTeam 和 [DeepEval](https://github.com/confident-ai/deepeval) 原生集成。 - **管理风险评估** —— 跨迭代查看、比较和跟踪红队测试结果 - **生产监控** —— 检测并警报触及您在线 LLM 系统的漏洞 - **分享报告** —— 在您的团队中生成和分发安全报告 - **从 IDE 运行** —— 使用 Confident AI 的 MCP 服务器运行红队测试、拉取结果和检查漏洞,无需离开 Cursor 或 Claude Code

Confident AI

  # 作者 由 Confident AI 的创始人构建。如有任何询问,请联系 jeffreyip@confident-ai.com。   # 许可证 DeepTeam 根据 Apache 2.0 授权 - 有关详细信息,请参阅 [LICENSE.md](https://github.com/confident-ai/deepteam/blob/main/LICENSE.md) 文件。
标签:AI伦理, ChatGPT安全, DeepTeam, DLL 劫持, DNS解析, Kubernetes 安全, Petitpotam, Python, 人工智能安全, 反取证, 合规性, 域名收集, 大语言模型, 安全评估, 密码管理, 对抗攻击, 开源项目, 提示注入, 敏感信息检测, 无后门, 模型鲁棒性, 私有化部署, 自动化攻击, 越狱检测, 逆向工具, 防御规避, 集群管理