SAMSUNGApple7/llm-redteam

GitHub: SAMSUNGApple7/llm-redteam

一个专注于中文场景的开源LLM红队测试工具，用于自动化检测提示注入、越狱等安全漏洞。

Stars: 0 | Forks: 1

# 基于多攻击策略的大语言模型应用安全测试系统 **LLM-RedTeam** · An Open-Source Red Team Toolkit for Chinese LLM Applications [![Python](https://img.shields.io/badge/Python-3.10%2B-blue.svg)](https://www.python.org/) [![License](https://img.shields.io/badge/License-MIT-green.svg)](LICENSE) [![Status](https://img.shields.io/badge/Status-Alpha-orange.svg)]() [设计文档](docs/DESIGN.md) · [竞品分析](docs/COMPETITIVE_ANALYSIS.md) · [绿盟框架对齐](docs/NSFOCUS_ALIGNMENT.md) · [博客选题](docs/BLOG_TOPICS.md)

## 一句话定位对接 **OpenAI / Dify / LangChain / MCP** 等大语言模型应用，通过 **多攻击策略 + LLM-as-Judge** 自动化执行 **Prompt 注入、越狱、信息泄露、工具滥用** 等红队测试，输出可视化风险评估报告。 ## 为什么再造一个 LLM 红队工具？ | 已有工具 | 局限 | |---|---| | [NVIDIA/garak](https://github.com/NVIDIA/garak) | 中文/国产模型 payload 极少，对 Dify、MCP 等新兴生态无支持 | | [microsoft/PyRIT](https://github.com/microsoft/PyRIT) | 架构重、面向企业、上手陡峭 | | [promptfoo](https://github.com/promptfoo/promptfoo) | Node.js 技术栈，安全功能较通用化 | | 绿盟 NSFGPT / AI-Scan | 商业产品，闭源 | **本项目的差异化**： - ✅ **中文原生**：所有攻击 payload 以中文语境为主，兼容英文 - ✅ **生态覆盖**：原生支持 OpenAI 兼容接口、Dify Workflow、LangChain Agent、**MCP Server** - ✅ **学术对齐**：攻击分类对齐 [OWASP LLM Top 10 (2025)](https://owasp.org/www-project-top-10-for-large-language-model-applications/) 与绿盟《LLM 安全威胁矩阵 V2.0》 - ✅ **轻量易扩展**：插件式架构，新增一种攻击只需写一个 Python 文件 - ✅ **LLM-as-Judge**：使用更强的模型作为评判员，攻击成功率自动判定 ## 架构总览 ┌──────────────────────────────────────────────────────────┐ │ CLI (Typer + Rich) │ ├──────────────────────────────────────────────────────────┤ │ Runner (异步编排) │ ├────────────┬──────────────┬─────────────┬────────────────┤ │ Attack │ Target │ Judge │ Reporter │ │ ──────── │ ────── │ ───── │ ───────── │ │ 越狱 │ OpenAI兼容 │ 关键词 │ Console │ │ 注入 │ Dify │ 正则 │ HTML │ │ 泄露 │ LangChain │ LLM-Judge │ JSON │ │ 滥用 │ MCP │ │ │ └────────────┴──────────────┴─────────────┴────────────────┘ 详见 [docs/DESIGN.md](docs/DESIGN.md)。 ## 快速开始 # 1. 克隆并安装 git clone https://github.com/SAMSUNGApple7/llm-redteam.git cd llm-redteam python -m venv .venv .venv\Scripts\activate # Windows: PowerShell # source .venv/bin/activate # Linux/macOS pip install -e ".[dev]" # 2. 配置密钥 cp .env.example .env # Linux/macOS # Copy-Item .env.example .env # Windows PowerShell # 编辑 .env 填入你的 API Key # 3. 列出所有可用攻击 llm-redteam list-attacks # 4. 跑一次最小测试 llm-redteam run --config examples/config.yaml # 5. 查看报告 start reports/report.html # Windows # open reports/report.html # macOS ## 测试国产大模型（DeepSeek 等） DeepSeek、通义千问、Kimi、智谱 GLM 等均提供 OpenAI 兼容接口，直接复用 `openai` 类型的 target 即可，**无需额外代码**。以 DeepSeek 为例，在 `.env` 中配置： OPENAI_API_KEY=sk-你的DeepSeek密钥 OPENAI_BASE_URL=https://api.deepseek.com/v1 OPENAI_MODEL=deepseek-v4-pro 然后运行内置的 DeepSeek 示例配置： llm-redteam run --config examples/config.deepseek.yaml ## 攻击插件清单（v0.1.0） | 类别 | 攻击名 | 描述 | 状态 | |---|---|---|---| | **越狱 Jailbreak** | DAN-中文版 | "Do Anything Now" 角色扮演越狱 | ✅ | | **越狱 Jailbreak** | 角色扮演越狱 | 通过虚构身份诱导越界回答 | 🚧 | | **越狱 Jailbreak** | 编码绕过 | Base64/Unicode/拆字编码越狱 | 📅 | | **注入 Injection** | 直接注入 | 用户输入中夹带恶意指令 | ✅ | | **注入 Injection** | 间接注入 | RAG 文档/URL 内容注入 | 📅 | | **泄露 Leakage** | System Prompt 提取 | 套取目标系统提示词 | ✅ | | **泄露 Leakage** | 训练数据泄露 | 探测模型记忆的训练数据 | 📅 | | **滥用 Abuse** | MCP 工具滥用 | 诱导 Agent 调用越权工具 | 📅 | ✅ 已实现 · 🚧 进行中 · 📅 路线图 ## 项目状态 **当前**：v0.1.0 (Alpha) —— 已实现核心架构和最小可用攻击集，可执行端到端测试。 **路线图**：见 [docs/ROADMAP.md](docs/ROADMAP.md)。 ## 致谢本项目设计参考了： - [NVIDIA/garak](https://github.com/NVIDIA/garak) 的 Probe/Detector 插件机制 - [microsoft/PyRIT](https://github.com/microsoft/PyRIT) 的 Orchestrator 编排思想 - [OWASP LLM Top 10](https://owasp.org/www-project-top-10-for-large-language-model-applications/) 的威胁分类 - [绿盟科技《LLM 安全威胁矩阵 V2.0》](https://www.nsfocus.com.cn/) 的威胁建模 ## License [MIT](LICENSE)

标签：Dify工作流, DLL 劫持, LangChain集成, LLM-as-Judge, MCP协议, NSFOCUS对齐, OpenAI API, OWASP合规, Prompt注入攻击, Python编程, 中文场景, 二进制发布, 人工智能安全, 信息泄露检测, 可视化报告, 合规性, 大语言模型, 安全测试, 工具滥用, 开源工具, 插件架构, 攻击性安全, 沙箱执行, 网络安全, 自动化评估, 逆向工具, 隐私保护