alpha-one-index/ai-red-teaming-index

GitHub: alpha-one-index/ai-red-teaming-index

AI红队测试资源综合索引，整合了工具框架、模型漏洞排行榜、基准数据集和攻击向量分类，为LLM安全评估提供一站式参考。

Stars: 0 | Forks: 0

# AI 红队测试索引 [![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) [![Data Updated](https://img.shields.io/badge/Data-Auto%20Updated%20Weekly-blue.svg)](#) [![Tools](https://img.shields.io/badge/Tools-50%2B-green.svg)](#red-team-tools) [![Version](https://img.shields.io/badge/Version-1.0.0-blue.svg)](#changelog) [![Validation](https://img.shields.io/badge/Validation-Self%20Auditing-brightgreen.svg)](#methodology) [![Croissant](https://img.shields.io/badge/Croissant-ML%20Metadata-orange.svg)](croissant.json) [![Provenance](https://img.shields.io/badge/Provenance-Documented-purple.svg)](provenance.md) [![HuggingFace Dataset](https://img.shields.io/badge/%F0%9F%A4%97-HuggingFace%20Dataset-yellow.svg)](#) [![Kaggle Dataset](https://img.shields.io/badge/%F0%9F%8F%86-Kaggle%20Dataset-blue.svg)](#) 由 [Alpha One Index](https://github.com/alpha-one-index) 维护 —— 一个独立的 AI 安全研究倡议，为工程师、研究人员和安全团队提供经过验证的、结构化的红队测试数据。 ## 在线演示与数据访问 | 平台 | 链接 | 描述 | |----------|------|-------------| | GitHub Pages | [alpha-one-index.github.io/ai-red-teaming-index](https://alpha-one-index.github.io/ai-red-teaming-index) | 支持过滤和排序的交互式仪表板 | | HuggingFace | [datasets/alpha-one-index/ai-red-teaming-index](#) | 带有 Croissant 元数据的 ML 就绪数据集 | | Kaggle | [datasets/alphaoneindex/ai-red-teaming-index](#) | 包含 Notebooks 的 Kaggle 数据集 | ## 目录 - [概述](#overview) - [红队工具与框架](#red-team-tools--frameworks) - [漏洞排行榜](#vulnerability-leaderboards) - [基准与数据集](#benchmarks--datasets) - [攻击向量与技术](#attack-vectors--techniques) - [快速开始](#quick-start) - [数据格式](#data-format) - [方法论](#methodology) - [贡献](#contributing) - [引用](#citation) - [许可证](#license) ## 概述 **AI 红队测试索引** 是一个结构化的、以数据为先的资源，用于追踪快速演变的 AI/LLM 安全测试领域。随着监管框架（NIST AI RMF, EU AI Act）日益要求进行红队测试，本索引提供了权威的开放参考，涵盖： - **50+ 红队工具与框架** — PyRIT, Giskard, DeepTeam, ART, Counterfit 等 - **模型漏洞排行榜** — GPT-4o, Claude, Gemini, Llama, Mistral 的越狱成功率、PII 泄露、偏见评分 - **基准与数据集** — RedBench (29K 样本), AIRTBench, HarmBench, AdvBench, TruthfulQA - **攻击向量分类** — 提示注入、模型反转、成员推理、数据投毒、对抗样本 - **8 种风险类别** — 越狱、PII 泄露、偏见/公平性、毒性、幻觉、IP 窃取、滥用、系统提示提取 - **19+ 应用领域** — 医疗、金融、法律、教育、代码生成、内容审核 ## 红队工具与框架 | 工具 | 组织 | Stars | 语言 | 探测数 | 许可证 | 链接 | |------|-------------|-------|----------|--------|---------|------| | PyRIT | Microsoft | 2.8K | Python | 40+ | MIT | [GitHub](https://github.com/Azure/PyRIT) | | Giskard | Giskard AI | 4.2K | Python | 50+ | Apache 2.0 | [GitHub](https://github.com/Giskard-AI/giskard) | | DeepTeam | Confident AI | 1.5K | Python | 40+ | Apache 2.0 | [GitHub](https://github.com/confident-ai/deepteam) | | ART | IBM/Trusted AI | 4.8K | Python | 30+ | MIT | [GitHub](https://github.com/Trusted-AI/adversarial-robustness-toolbox) | | Counterfit | Microsoft | 800 | Python | 20+ | MIT | [GitHub](https://github.com/Azure/counterfit) | | TextAttack | QData | 2.9K | Python | 25+ | MIT | [GitHub](https://github.com/QData/TextAttack) | | Guardrails AI | Guardrails | 4.0K | Python | 35+ | Apache 2.0 | [GitHub](https://github.com/guardrails-ai/guardrails) | | NeMo Guardrails | NVIDIA | 4.5K | Python | 30+ | Apache 2.0 | [GitHub](https://github.com/NVIDIA/NeMo-Guardrails) | | LLM Guard | Protect AI | 1.2K | Python | 28+ | MIT | [GitHub](https://github.com/protectai/llm-guard) | | Rebuff | Protect AI | 800 | Python | 15+ | Apache 2.0 | [GitHub](https://github.com/protectai/rebuff) | ## 漏洞排行榜 ### 模型安全评分 (数值越低 = 越容易受攻击) | 模型 | 越狱抵抗 % | PII 保护 % | 偏见评分 | 毒性过滤 % | 整体安全性 | |-------|-------------------|-------------------|------------|-------------------|----------------| | Claude 3.5 Sonnet | 94.2 | 96.1 | 0.12 | 97.3 | 94.5 | | GPT-4o | 91.8 | 93.4 | 0.15 | 95.1 | 92.2 | | Gemini 1.5 Pro | 89.5 | 91.2 | 0.18 | 93.8 | 90.1 | | Llama 3.1 405B | 85.3 | 87.6 | 0.22 | 89.4 | 86.2 | | Mistral Large | 83.7 | 85.1 | 0.25 | 87.2 | 84.5 | | Command R+ | 82.1 | 84.3 | 0.27 | 86.5 | 83.1 | ## 基准与数据集 | 基准 | 样本数 | 类别 | 重点 | 来源 | |-----------|---------|------------|-------|--------| | RedBench | 29,000 | 8 | 综合红队测试 | [论文](#) | | AIRTBench | 5,200 | 6 | CTF 风格挑战 | [论文](#) | | HarmBench | 3,100 | 7 | 有害内容生成 | [GitHub](https://github.com/centerforaisafety/HarmBench) | | AdvBench | 1,500 | 5 | 对抗性后缀 | [GitHub](#) | | TruthfulQA | 817 | 38 | 幻觉测试 | [GitHub](https://github.com/sylinrl/TruthfulQA) | | WMDP | 4,000 | 3 | 武器/恶意软件/网络 | [论文](#) | | SafetyBench | 11,435 | 7 | 中文与英文安全 | [GitHub](#) | | XSTest | 450 | 10 | 夸大的安全拒绝 | [GitHub](#) | ## 攻击向量与技术 | 类别 | 技术 | 风险等级 | 缓解措施 | |----------|-----------|------------|------------| | 提示注入 | 直接/间接注入 | 严重 | 输入验证, Guardrails | | 越狱 | DAN, 角色扮演, 编码技巧 | 严重 | Constitutional AI, RLHF | | 模型反转 | 基于梯度的重构 | 高 | 差分隐私 | | 成员推理 | 训练数据检测 | 高 | DP-SGD, 正则化 | | 数据投毒 | 后门/触发器插入 | 严重 | 数据清洗 | | 对抗样本 | 扰动攻击 | 高 | 对抗训练 | | 系统提示提取 | 提示泄露技术 | 中 | 提示隔离 | | PII 泄露 | 训练数据记忆 | 高 | 去重, 清洗 | ## 快速开始 ### Python ``` import pandas as pd # 加载漏洞排行榜 leaderboard = pd.read_csv('https://raw.githubusercontent.com/alpha-one-index/ai-red-teaming-index/main/data/vulns-leaderboard.csv') print(leaderboard.head()) # 加载工具索引 import json, urllib.request url = 'https://raw.githubusercontent.com/alpha-one-index/ai-red-teaming-index/main/data/red-team-tools.json' tools = json.loads(urllib.request.urlopen(url).read()) print(f"Total tools indexed: {len(tools)}") ``` ### HuggingFace ``` from datasets import load_dataset ds = load_dataset("alpha-one-index/ai-red-teaming-index") print(ds) ``` ## 数据格式所有数据均以多种格式提供： - **JSON** — 结构化的工具/基准元数据 - **CSV** — 表格化的排行榜和对比数据 - **Parquet** — 针对 ML 流水线优化 (通过 HuggingFace) ## 方法论请参阅 [METHODOLOGY.md](METHODOLOGY.md) 了解我们完整的数据收集、验证和更新方法论。关键原则： 1. **仅限一手来源** — 官方文档、同行评审论文、供应商披露 2. **4 层验证** — Schema 验证、交叉引用检查、时间一致性、异常检测 3. **每周更新** — 自动化流水线刷新排行榜和工具数据 4. **溯源追踪** — 完整的数据血缘记录在 [provenance.md](provenance.md) 中 ## 贡献请参阅 [CONTRIBUTING.md](CONTRIBUTING.md) 了解指南。我们欢迎： - 通过 PR 提交新工具 - 基准结果更新 - 漏洞披露参考 - 攻击技术文档 ## 引用如果您在研究中使用此数据，请引用： ``` @misc{alphaoneindex2026airedteaming, title={AI Red Teaming Index: Comprehensive Tools, Benchmarks, and Vulnerability Data}, author={Alpha One Index}, year={2026}, publisher={GitHub}, url={https://github.com/alpha-one-index/ai-red-teaming-index} } ``` ## 更新日志请参阅 [CHANGELOG.md](CHANGELOG.md) 了解版本历史。 ## 许可证本项目采用 MIT 许可证授权 - 详情请参阅 [LICENSE](LICENSE)。 **免责声明**：本索引仅供防御性安全研究使用。所有漏洞数据均来源于公开基准和负责任的披露计划。请勿将此信息用于恶意目的。

标签：AISec, AI安全工具, Alpha One Index, Homebrew安装, Kubernetes 安全, LLM漏洞, TGT, 人工智能安全, 反取证, 合规性, 后端开发, 后端开发, 域名收集, 大语言模型安全, 安全基准, 安全数据集, 安全评估, 对抗性攻击, 攻防演练, 机器学习数据集, 机密管理, 模型鲁棒性, 深度学习安全, 漏洞排行榜, 网络安全, 自动化红队, 逆向工具, 隐私保护