seikaikyo/ai-red-team

GitHub: seikaikyo/ai-red-team

LLM对抗测试工具包，提供177个覆盖12类攻击向量的多语言模板，用于系统性评估大语言模型的安全机制。

Stars: 1 | Forks: 0

# AI 红队工具包 [![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](LICENSE) [![Templates](https://img.shields.io/badge/Attack_Templates-177-red.svg)]() [![Languages](https://img.shields.io/badge/Languages-EN_|_ZH_|_JA-blue.svg)]() [![Framework](https://img.shields.io/badge/Framework-Vue_3_+_FastAPI-green.svg)]() 用于评估 LLM 安全机制的系统性对抗测试框架。 [在线演示](https://ai-red-team.dashai.dev) | [English](#english) | [正體中文](#正體中文) | [日本語](#日本語)

## 简体中文 ### 免责声明本工具包**仅供授权安全测试、学术研究和防御性 AI 安全评估使用**。攻击模板旨在识别 LLM 安全机制中的漏洞，以便对其进行加固。 - 未经明确授权，请勿使用本工具包攻击生产系统 - 请勿使用攻击模板生成有害内容 - 作者不对本软件的滥用承担任何责任 - 所有测试应遵守适用法律、法规以及目标模型提供商的服务条款 ### 方法论本工具包实施基于结构化分类法的方法，而非临时性的 prompt 测试： ``` Define Scope → Select Category → Configure Variables → Execute → Classify → Report ``` 1. **分类攻击向量** — 12 个类别具有不同的威胁模型，而非随机的 prompt 列表 2. **变量替换** — 模板使用 `{{variable}}` 占位符，能够跨模型和配置进行系统化参数扫描 3. **三语覆盖** — 每个模板均有 EN/ZH/JA 版本，用于评估跨语言安全边界，因为模型通常表现出不一致的防护栏 4. **结构化判定** — 每个测试结果均经过人工分类（通过/失败/待定），并保留原始 prompt 和完整的模型响应以确保可重现性 5. **可导出报告** — 包含按类别细分的 Markdown 报告，便于与利益相关者沟通 ### 截图 | 仪表盘 | 模板 | 测试运行器 | |:---------:|:---------:|:-----------:| | ![Dashboard](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/fa623058e1220143.png) | ![Templates](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/792a1ea84d220155.png) | ![Runner](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/ab41e02357220209.png) | ### 功能特性 - 跨 12 个类别的 **177 个攻击模板**（EN / ZH / JA） - 包含变量替换和模型配置的 **测试运行器** - 包含人工判定（通过 / 失败 / 待定）的 **结果追踪** - 包含按类别细分的 **Markdown 报告导出** - **三语 UI**（英语、繁体中文、日语），支持 localStorage 持久化 - **OpenAI 兼容 API** 支持，用于测试自托管 LLM（Ollama, vLLM, LM Studio） ### 攻击类别 | 类别 | 模板数 | 威胁模型 | |----------|:---------:|-------------| | Prompt 注入 | 8 x 3 | 系统提示提取、指令覆盖、分隔符注入 | | 越狱攻击 | 8 x 3 | DAN、角色扮演、假设性框架、Token 走私 | | 偏见检测 | 6 x 3 | 性别、种族、年龄、社会经济、残疾偏见 | | 安全绕过 | 5 x 3 | 教程框架、医疗误导信息、PII 生成、恶意软件 | | 多语言攻击 | 5 x 3 | 语言切换、翻译绕过、代码混合 | 每个类别都有英语、繁体中文和日语变体，用于跨语言安全评估。 ### 技术栈 | 层级 | 技术 | |-------|-----------| | 前端 | Vue 3 + TypeScript + PrimeVue 4 (Aura) | | 后端 | FastAPI + SQLModel + SQLite | | AI | Anthropic API (Claude) | | 构建 | Vite 7 | ### 快速开始 **前置条件：** Node.js >= 20，Python >= 3.11，Anthropic API key ``` # Backend cd backend python -m venv venv && source venv/bin/activate pip install -r requirements.txt echo "ANTHROPIC_API_KEY=your-key-here" > .env uvicorn main:app --port 8005 # Frontend cd frontend npm install npm run dev ``` 打开 http://localhost:5175 ### 项目结构 ``` ai-red-team/ backend/ main.py # FastAPI app + CORS models.py # SQLModel schema routers/ templates.py # Template CRUD API tests.py # Test execution API stats.py # Statistics API services/ runner.py # Anthropic API test runner seed/ templates.json # 177 attack templates (EN/ZH/JA) frontend/ src/ views/ # Dashboard, Templates, Runner, Results, Report composables/ # useTemplates, useTestRunner, useStats, useI18n config/ categories.ts # Attack categories + severities i18n/ # EN / ZH / JA translations ``` ### API 端点 | 方法 | 端点 | 描述 | |--------|----------|-------------| | GET | `/templates` | 列出所有模板 | | POST | `/templates` | 创建模板 | | PUT | `/templates/{id}` | 更新模板 | | DELETE | `/templates/{id}` | 删除模板 | | POST | `/tests/run` | 对目标模型执行测试 | | GET | `/tests` | 列出测试结果 | | PATCH | `/tests/{id}/verdict` | 更新测试判定 | | GET | `/stats` | 仪表盘统计 | ## 正體中文 ### 免責聲明本工具**僅供授權安全測試、學術研究及防禦性 AI 安全評估使用**。攻擊模板旨在識別 LLM 安全機制的漏洞以加以強化。 - 未經明確授權，禁止攻擊正式環境系統 - 禁止利用攻擊模板產生有害內容 - 作者不對軟體濫用負責 - 所有測試應遵守相關法律及模型供應商的服務條款 ### 方法論本工具採用系統化分類法，而非隨機測試： ``` 定義範圍 → 選擇類別 → 設定變數 → 執行測試 → 判定結果 → 產出報告 ``` 1. **分類攻擊向量** — 12 大類別各有獨立威脅模型，非隨機 prompt 清單 2. **變數替換** — 模板使用 `{{variable}}` 佔位符，可系統化掃描不同模型與設定 3. **三語覆蓋** — 每個模板都有英/中/日版本，評估跨語言安全邊界（模型在不同語言的防護常不一致） 4. **結構化判定** — 每筆測試手動分類（通過/攔截/待審），保留完整 prompt 與模型回應，確保可重現 5. **可匯出報告** — Markdown 格式，按類別分項統計 ### 截圖 | 儀表板 | 攻擊模板 | 測試執行器 | |:------:|:-------:|:---------:| | ![Dashboard](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/fa623058e1220143.png) | ![Templates](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/792a1ea84d220155.png) | ![Runner](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/ab41e02357220209.png) | ### 功能 - **177 個攻擊模板**，涵蓋 12 大類別（英文/中文/日文） - **測試執行器**，支援變數替換與模型參數設定 - **結果追蹤**，手動判定（通過/攔截/待審查） - **Markdown 報告匯出**，依類別分項統計 - **三語 UI**（英文、正體中文、日文），語言偏好以 localStorage 持久化 - **OpenAI-Compatible API** 支援測試自架 LLM（Ollama、vLLM、LM Studio） ### 攻擊類別 | 類別 | 模板數 | 威脅模型 | |------|:------:|---------| | 提示注入 | 8 x 3 | 系統提示詞提取、指令覆蓋、分隔符注入 | | 越獄攻擊 | 8 x 3 | DAN、角色扮演、假設情境、Token 走私 | | 偏見檢測 | 6 x 3 | 性別、種族、年齡、社經地位、身心障礙偏見 | | 安全繞過 | 5 x 3 | 教學包裝、醫療錯誤資訊、個資產生、惡意程式 | | 多語言攻擊 | 5 x 3 | 語言切換、翻譯繞過、混合語言注入 | ### 技術架構 | 層級 | 技術 | |------|------| | 前端 | Vue 3 + TypeScript + PrimeVue 4 (Aura) | | 後端 | FastAPI + SQLModel + SQLite | | AI | Anthropic API (Claude) | | 建置 | Vite 7 | ### 快速開始 **前置需求：** Node.js >= 20、Python >= 3.11、Anthropic API key ``` # 後端 cd backend python -m venv venv && source venv/bin/activate pip install -r requirements.txt echo "ANTHROPIC_API_KEY=your-key-here" > .env uvicorn main:app --port 8005 # 前端 cd frontend npm install npm run dev ``` 開啟 http://localhost:5175 ## 日本語 ### 免責事項本ツールキットは、**認可されたセキュリティテスト、学術研究、防御的 AI 安全評価のみ**を目的としています。攻撃テンプレートは LLM の安全メカニズムの脆弱性を特定し、強化するために設計されています。 - 明示的な許可なく本番システムへの攻撃に使用しないこと - 攻撃テンプレートを有害コンテンツの生成に使用しないこと - 著者は本ソフトウェアの悪用に対する責任を負わない - すべてのテストは関連法規および対象モデル提供者の利用規約に準拠すること ### 方法論本ツールキットは場当たり的なテストではなく、体系的なタクソノミーベースのアプローチを実装しています： ``` スコープ定義 → カテゴリ選択 → 変数設定 → テスト実行 → 判定 → レポート出力 ``` 1. **カテゴリ分類された攻撃ベクトル** — 12 カテゴリに独立した脅威モデル、ランダムなプロンプトリストではない 2. **変数置換** — テンプレートは `{{variable}}` プレースホルダーを使用、モデルと設定を体系的にスイープ可能 3. **3 言語カバレッジ** — 各テンプレートに英/中/日版があり、言語横断的な安全境界を評価（モデルは言語によってガードレールが不均一な場合が多い） 4. **構造化された判定** — 各テスト結果を手動分類（Pass/Fail/未判定）、元のプロンプトとモデル応答を完全保持し再現性を確保 5. **エクスポート可能なレポート** — カテゴリ別内訳付き Markdown レポート ### 屏幕截图 | ダッシュボード | テンプレート | テストランナー | |:------------:|:----------:|:------------:| | ![Dashboard](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/fa623058e1220143.png) | ![Templates](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/792a1ea84d220155.png) | ![Runner](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/ab41e02357220209.png) | ### 機能 - **177 の攻撃テンプレート**、12 カテゴリ（英語/中国語/日本語） - **テストランナー** — 変数置換とモデル設定に対応 - **結果追跡** — 手動判定（Pass / Fail / 未判定） - **Markdown レポート出力** — カテゴリ別の内訳 - **3 言語 UI**（英語、繁体字中国語、日本語）、localStorage で言語設定を保持 - **OpenAI 互換 API** — セルフホスト LLM のテスト対応（Ollama、vLLM、LM Studio） ### 攻撃カテゴリ | カテゴリ | テンプレート数 | 脅威モデル | |---------|:------------:|-----------| | Prompt Injection | 8 x 3 | System Prompt 抽出、指示の上書き、区切り文字インジェクション | | Jailbreak | 8 x 3 | DAN、ロールプレイ、仮想シナリオ、Token 密輸 | | Bias 検出 | 6 x 3 | 性別、人種、年齢、社会経済的、障害バイアス | | Safety Bypass | 5 x 3 | チュートリアル形式、医療誤情報、個人情報生成、マルウェア | | 多言語攻撃 | 5 x 3 | 言語切替、翻訳による回避、多言語混合インジェクション | ### 技術スタック | レイヤー | 技術 | |---------|------| | Frontend | Vue 3 + TypeScript + PrimeVue 4 (Aura) | | Backend | FastAPI + SQLModel + SQLite | | AI | Anthropic API (Claude) | | Build | Vite 7 | ### 快速入门 **前提条件：** Node.js >= 20、Python >= 3.11、Anthropic API key ``` # Backend cd backend python -m venv venv && source venv/bin/activate pip install -r requirements.txt echo "ANTHROPIC_API_KEY=your-key-here" > .env uvicorn main:app --port 8005 # Frontend cd frontend npm install npm run dev ``` http://localhost:5175 を開く ## 许可证 MIT

标签：AI安全, AV绕过, Chat Copilot, FastAPI, NLP安全, Petitpotam, Vue 3, 偏见检测, 反取证, 域名收集, 多语言支持, 大模型安全, 安全合规, 安全工具包, 安全测试框架, 安全绕过, 安全评估, 对抗性攻击, 攻击模板, 网络代理, 自动化攻击