dapurv5/awesome-red-teaming-llms
GitHub: dapurv5/awesome-red-teaming-llms
系统梳理大语言模型红队测试领域攻击、防御与评估方法的学术论文集合与分类资源库。
Stars: 44 | Forks: 13
# Awesome LLM 红队测试 [](https://awesome.re)
[](https://twitter.com/verma_apurv5/status/1815751139729519011)
[](https://arxiv.org/pdf/2407.14937)
## 目录
- [攻击](Attacks.md)
- [直接攻击](Attacks.md#direct-attack)
- [注入攻击](Attacks.md#infusion-attack)
- [推理攻击](Attacks.md#inference-attack)
- [训练攻击](Attacks.md#training-attack)
- [复合系统攻击](CompoundSystemsAttacks.md)
- [防御](Defenses.md)
- [评估与基准测试](#evaluation--benchmarks)
- [其他调研](#other-surveys)
- [红队测试](#red-teaming)
## 红队测试攻击分类

## 评估与基准测试
| 标题 | 链接 |
|-------|------|
| ATBench: 一个用于安全评估与诊断的多样化且真实的 Agent 轨迹基准测试 | [链接](https://arxiv.org/abs/2604.02022) |
| 超越统一标准:场景自适应的多维度越狱评估 (SceneJailEval) | [链接](https://arxiv.org/abs/2508.06194) |
| NESSiE: 必要的安全基准测试 —— 识别不应存在的错误 | [链接](https://arxiv.org/abs/2602.16756) |
## 其他调研
| 标题 | 链接 |
|-------|------|
| SoK: 大语言模型的 Prompt 黑客攻击 | [链接](https://www.semanticscholar.org/paper/SoK%3A-Prompt-Hacking-of-Large-Language-Models-Rababah-Wu/9259d06eeaae42b05ad22ba76f0a1cbb216ad63a) |
| 可信 LLM Agent 调研:威胁与对策 | [链接](https://arxiv.org/abs/2503.09648) |
| LLM Agent 涌现的安全与隐私:带有案例研究的调研 | [链接](https://arxiv.org/abs/2407.19354) |
## 红队测试
| 标题 | 链接 |
|-------|------|
| 生成式 AI 的红队测试:灵丹妙药还是安全表演? | [链接](https://ojs.aaai.org/index.php/AIES/article/view/31647) |
| 对 100 款生成式 AI 产品进行红队测试的经验教训 | [链接](https://arxiv.org/abs/2501.07238) |
| Rainbow Teaming:开放式生成多样化的对抗性 Prompt | [链接](https://arxiv.org/abs/2402.16822) |
| 失败流形:语言模型中的行为吸引盆地 | [链接](https://arxiv.org/pdf/2602.22291) |
| 通过通信攻击对 LLM 多 Agent 系统进行红队测试 | [链接](https://arxiv.org/abs/2502.14847) |
| 对机器大脑的红队测试:LLM 中 Prompt 注入与越狱漏洞的系统性评估 | [链接](https://arxiv.org/abs/2505.04806) |
| 通过通信攻击对 LLM 多 Agent 系统进行红队测试 | [链接](https://arxiv.org/abs/2502.14847) |
| TRIDENT:通过三维多样化的红队测试数据合成增强大语言模型安全性 | [链接](https://arxiv.org/abs/2505.24672) |
| 多语言 LLM 安全研究的现状:从衡量语言鸿沟到弥合鸿沟 | [链接](https://arxiv.org/abs/2505.24119) |
| RedTeamCUA:在 Web-OS 混合环境中对计算机使用 Agent 进行真实的对抗性测试 | [链接](https://arxiv.org/abs/2505.21936) |
| RRTL:在工具学习中对推理大语言模型进行红队测试 | [链接](https://arxiv.org/abs/2505.17106) |
| 基于 LLM 红队测试能力的缩放定律 | [链接](https://arxiv.org/abs/2505.20162) |
| 使用 GOAT 进行自动化红队测试:生成式攻击性 Agent 测试器 | [链接](https://arxiv.org/abs/2410.01606) |
| 全局战略,局部适应:具有双层学习的多轮红队测试 Agent | [链接](https://arxiv.org/abs/2504.01278) |
| 通过 Agent 即代理攻击绕过 AI 控制协议 | [链接](https://arxiv.org/abs/2602.05066) |
| AJAR:用于红队测试的自适应越狱架构 | [链接](https://arxiv.org/abs/2601.10971) |
如果您喜欢我们的工作,请考虑引用。如果您想将您的工作添加到我们的分类中,请提交一个 pull request。
#### BibTex
```
@article{verma2024operationalizing,
title={Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs)},
author={Verma, Apurv and Krishna, Satyapriya and Gehrmann, Sebastian and Seshadri, Madhavan and Pradhan, Anu and Ault, Tom and Barrett, Leslie and Rabinowitz, David and Doucette, John and Phan, NhatHai},
journal={arXiv preprint arXiv:2407.14937},
year={2024}
}
```
标签:DLL 劫持, TruffleHog, 反取证, 大语言模型, 学习资源, 学术论文, 安全评估, 对抗攻击, 敏感信息检测, 防御加固