alpha-one-index/ai-red-teaming-index
GitHub: alpha-one-index/ai-red-teaming-index
AI红队测试资源综合索引,整合了工具框架、模型漏洞排行榜、基准数据集和攻击向量分类,为LLM安全评估提供一站式参考。
Stars: 0 | Forks: 0
# AI 红队测试索引
[](https://opensource.org/licenses/MIT)
[](#)
[](#red-team-tools)
[](#changelog)
[](#methodology)
[](croissant.json)
[](provenance.md)
[](#)
[](#)
由 [Alpha One Index](https://github.com/alpha-one-index) 维护 —— 一个独立的 AI 安全研究倡议,为工程师、研究人员和安全团队提供经过验证的、结构化的红队测试数据。
## 在线演示与数据访问
| 平台 | 链接 | 描述 |
|----------|------|-------------|
| GitHub Pages | [alpha-one-index.github.io/ai-red-teaming-index](https://alpha-one-index.github.io/ai-red-teaming-index) | 支持过滤和排序的交互式仪表板 |
| HuggingFace | [datasets/alpha-one-index/ai-red-teaming-index](#) | 带有 Croissant 元数据的 ML 就绪数据集 |
| Kaggle | [datasets/alphaoneindex/ai-red-teaming-index](#) | 包含 Notebooks 的 Kaggle 数据集 |
## 目录
- [概述](#overview)
- [红队工具与框架](#red-team-tools--frameworks)
- [漏洞排行榜](#vulnerability-leaderboards)
- [基准与数据集](#benchmarks--datasets)
- [攻击向量与技术](#attack-vectors--techniques)
- [快速开始](#quick-start)
- [数据格式](#data-format)
- [方法论](#methodology)
- [贡献](#contributing)
- [引用](#citation)
- [许可证](#license)
## 概述
**AI 红队测试索引** 是一个结构化的、以数据为先的资源,用于追踪快速演变的 AI/LLM 安全测试领域。随着监管框架(NIST AI RMF, EU AI Act)日益要求进行红队测试,本索引提供了权威的开放参考,涵盖:
- **50+ 红队工具与框架** — PyRIT, Giskard, DeepTeam, ART, Counterfit 等
- **模型漏洞排行榜** — GPT-4o, Claude, Gemini, Llama, Mistral 的越狱成功率、PII 泄露、偏见评分
- **基准与数据集** — RedBench (29K 样本), AIRTBench, HarmBench, AdvBench, TruthfulQA
- **攻击向量分类** — 提示注入、模型反转、成员推理、数据投毒、对抗样本
- **8 种风险类别** — 越狱、PII 泄露、偏见/公平性、毒性、幻觉、IP 窃取、滥用、系统提示提取
- **19+ 应用领域** — 医疗、金融、法律、教育、代码生成、内容审核
## 红队工具与框架
| 工具 | 组织 | Stars | 语言 | 探测数 | 许可证 | 链接 |
|------|-------------|-------|----------|--------|---------|------|
| PyRIT | Microsoft | 2.8K | Python | 40+ | MIT | [GitHub](https://github.com/Azure/PyRIT) |
| Giskard | Giskard AI | 4.2K | Python | 50+ | Apache 2.0 | [GitHub](https://github.com/Giskard-AI/giskard) |
| DeepTeam | Confident AI | 1.5K | Python | 40+ | Apache 2.0 | [GitHub](https://github.com/confident-ai/deepteam) |
| ART | IBM/Trusted AI | 4.8K | Python | 30+ | MIT | [GitHub](https://github.com/Trusted-AI/adversarial-robustness-toolbox) |
| Counterfit | Microsoft | 800 | Python | 20+ | MIT | [GitHub](https://github.com/Azure/counterfit) |
| TextAttack | QData | 2.9K | Python | 25+ | MIT | [GitHub](https://github.com/QData/TextAttack) |
| Guardrails AI | Guardrails | 4.0K | Python | 35+ | Apache 2.0 | [GitHub](https://github.com/guardrails-ai/guardrails) |
| NeMo Guardrails | NVIDIA | 4.5K | Python | 30+ | Apache 2.0 | [GitHub](https://github.com/NVIDIA/NeMo-Guardrails) |
| LLM Guard | Protect AI | 1.2K | Python | 28+ | MIT | [GitHub](https://github.com/protectai/llm-guard) |
| Rebuff | Protect AI | 800 | Python | 15+ | Apache 2.0 | [GitHub](https://github.com/protectai/rebuff) |
## 漏洞排行榜
### 模型安全评分 (数值越低 = 越容易受攻击)
| 模型 | 越狱抵抗 % | PII 保护 % | 偏见评分 | 毒性过滤 % | 整体安全性 |
|-------|-------------------|-------------------|------------|-------------------|----------------|
| Claude 3.5 Sonnet | 94.2 | 96.1 | 0.12 | 97.3 | 94.5 |
| GPT-4o | 91.8 | 93.4 | 0.15 | 95.1 | 92.2 |
| Gemini 1.5 Pro | 89.5 | 91.2 | 0.18 | 93.8 | 90.1 |
| Llama 3.1 405B | 85.3 | 87.6 | 0.22 | 89.4 | 86.2 |
| Mistral Large | 83.7 | 85.1 | 0.25 | 87.2 | 84.5 |
| Command R+ | 82.1 | 84.3 | 0.27 | 86.5 | 83.1 |
## 基准与数据集
| 基准 | 样本数 | 类别 | 重点 | 来源 |
|-----------|---------|------------|-------|--------|
| RedBench | 29,000 | 8 | 综合红队测试 | [论文](#) |
| AIRTBench | 5,200 | 6 | CTF 风格挑战 | [论文](#) |
| HarmBench | 3,100 | 7 | 有害内容生成 | [GitHub](https://github.com/centerforaisafety/HarmBench) |
| AdvBench | 1,500 | 5 | 对抗性后缀 | [GitHub](#) |
| TruthfulQA | 817 | 38 | 幻觉测试 | [GitHub](https://github.com/sylinrl/TruthfulQA) |
| WMDP | 4,000 | 3 | 武器/恶意软件/网络 | [论文](#) |
| SafetyBench | 11,435 | 7 | 中文与英文安全 | [GitHub](#) |
| XSTest | 450 | 10 | 夸大的安全拒绝 | [GitHub](#) |
## 攻击向量与技术
| 类别 | 技术 | 风险等级 | 缓解措施 |
|----------|-----------|------------|------------|
| 提示注入 | 直接/间接注入 | 严重 | 输入验证, Guardrails |
| 越狱 | DAN, 角色扮演, 编码技巧 | 严重 | Constitutional AI, RLHF |
| 模型反转 | 基于梯度的重构 | 高 | 差分隐私 |
| 成员推理 | 训练数据检测 | 高 | DP-SGD, 正则化 |
| 数据投毒 | 后门/触发器插入 | 严重 | 数据清洗 |
| 对抗样本 | 扰动攻击 | 高 | 对抗训练 |
| 系统提示提取 | 提示泄露技术 | 中 | 提示隔离 |
| PII 泄露 | 训练数据记忆 | 高 | 去重, 清洗 |
## 快速开始
### Python
```
import pandas as pd
# 加载漏洞排行榜
leaderboard = pd.read_csv('https://raw.githubusercontent.com/alpha-one-index/ai-red-teaming-index/main/data/vulns-leaderboard.csv')
print(leaderboard.head())
# 加载工具索引
import json, urllib.request
url = 'https://raw.githubusercontent.com/alpha-one-index/ai-red-teaming-index/main/data/red-team-tools.json'
tools = json.loads(urllib.request.urlopen(url).read())
print(f"Total tools indexed: {len(tools)}")
```
### HuggingFace
```
from datasets import load_dataset
ds = load_dataset("alpha-one-index/ai-red-teaming-index")
print(ds)
```
## 数据格式
所有数据均以多种格式提供:
- **JSON** — 结构化的工具/基准元数据
- **CSV** — 表格化的排行榜和对比数据
- **Parquet** — 针对 ML 流水线优化 (通过 HuggingFace)
## 方法论
请参阅 [METHODOLOGY.md](METHODOLOGY.md) 了解我们完整的数据收集、验证和更新方法论。
关键原则:
1. **仅限一手来源** — 官方文档、同行评审论文、供应商披露
2. **4 层验证** — Schema 验证、交叉引用检查、时间一致性、异常检测
3. **每周更新** — 自动化流水线刷新排行榜和工具数据
4. **溯源追踪** — 完整的数据血缘记录在 [provenance.md](provenance.md) 中
## 贡献
请参阅 [CONTRIBUTING.md](CONTRIBUTING.md) 了解指南。我们欢迎:
- 通过 PR 提交新工具
- 基准结果更新
- 漏洞披露参考
- 攻击技术文档
## 引用
如果您在研究中使用此数据,请引用:
```
@misc{alphaoneindex2026airedteaming,
title={AI Red Teaming Index: Comprehensive Tools, Benchmarks, and Vulnerability Data},
author={Alpha One Index},
year={2026},
publisher={GitHub},
url={https://github.com/alpha-one-index/ai-red-teaming-index}
}
```
## 更新日志
请参阅 [CHANGELOG.md](CHANGELOG.md) 了解版本历史。
## 许可证
本项目采用 MIT 许可证授权 - 详情请参阅 [LICENSE](LICENSE)。
**免责声明**:本索引仅供防御性安全研究使用。所有漏洞数据均来源于公开基准和负责任的披露计划。请勿将此信息用于恶意目的。
标签:AISec, AI安全工具, Alpha One Index, Homebrew安装, Kubernetes 安全, LLM漏洞, TGT, 人工智能安全, 反取证, 合规性, 后端开发, 后端开发, 域名收集, 大语言模型安全, 安全基准, 安全数据集, 安全评估, 对抗性攻击, 攻防演练, 机器学习数据集, 机密管理, 模型鲁棒性, 深度学习安全, 漏洞排行榜, 网络安全, 自动化红队, 逆向工具, 隐私保护