dapurv5/awesome-red-teaming-llms

GitHub: dapurv5/awesome-red-teaming-llms

系统梳理大语言模型红队测试领域攻击、防御与评估方法的学术论文集合与分类资源库。

Stars: 44 | Forks: 13

# Awesome LLM 红队测试 [![Awesome](https://awesome.re/badge.svg)](https://awesome.re)

[![Twitter 推文](https://img.shields.io/badge/Thread-000000?style=for-the-badge&logo=X&logoColor=white)](https://twitter.com/verma_apurv5/status/1815751139729519011) [![arXiv](https://img.shields.io/badge/arXiv-2404.09562-b31b1b?style=for-the-badge&logo=arXiv&logoColor=white)](https://arxiv.org/pdf/2407.14937) ## 目录 - [攻击](Attacks.md) - [直接攻击](Attacks.md#direct-attack) - [注入攻击](Attacks.md#infusion-attack) - [推理攻击](Attacks.md#inference-attack) - [训练攻击](Attacks.md#training-attack) - [复合系统攻击](CompoundSystemsAttacks.md) - [防御](Defenses.md) - [评估与基准测试](#evaluation--benchmarks) - [其他调研](#other-surveys) - [红队测试](#red-teaming) ## 红队测试攻击分类 ![分类](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/dd82213d89172705.png) ## 评估与基准测试 | 标题 | 链接 | |-------|------| | ATBench: 一个用于安全评估与诊断的多样化且真实的 Agent 轨迹基准测试 | [链接](https://arxiv.org/abs/2604.02022) | | 超越统一标准：场景自适应的多维度越狱评估 (SceneJailEval) | [链接](https://arxiv.org/abs/2508.06194) | | NESSiE: 必要的安全基准测试 —— 识别不应存在的错误 | [链接](https://arxiv.org/abs/2602.16756) | ## 其他调研 | 标题 | 链接 | |-------|------| | SoK: 大语言模型的 Prompt 黑客攻击 | [链接](https://www.semanticscholar.org/paper/SoK%3A-Prompt-Hacking-of-Large-Language-Models-Rababah-Wu/9259d06eeaae42b05ad22ba76f0a1cbb216ad63a) | | 可信 LLM Agent 调研：威胁与对策 | [链接](https://arxiv.org/abs/2503.09648) | | LLM Agent 涌现的安全与隐私：带有案例研究的调研 | [链接](https://arxiv.org/abs/2407.19354) | ## 红队测试 | 标题 | 链接 | |-------|------| | 生成式 AI 的红队测试：灵丹妙药还是安全表演？ | [链接](https://ojs.aaai.org/index.php/AIES/article/view/31647) | | 对 100 款生成式 AI 产品进行红队测试的经验教训 | [链接](https://arxiv.org/abs/2501.07238) | | Rainbow Teaming：开放式生成多样化的对抗性 Prompt | [链接](https://arxiv.org/abs/2402.16822) | | 失败流形：语言模型中的行为吸引盆地 | [链接](https://arxiv.org/pdf/2602.22291) | | 通过通信攻击对 LLM 多 Agent 系统进行红队测试 | [链接](https://arxiv.org/abs/2502.14847) | | 对机器大脑的红队测试：LLM 中 Prompt 注入与越狱漏洞的系统性评估 | [链接](https://arxiv.org/abs/2505.04806) | | 通过通信攻击对 LLM 多 Agent 系统进行红队测试 | [链接](https://arxiv.org/abs/2502.14847) | | TRIDENT：通过三维多样化的红队测试数据合成增强大语言模型安全性 | [链接](https://arxiv.org/abs/2505.24672) | | 多语言 LLM 安全研究的现状：从衡量语言鸿沟到弥合鸿沟 | [链接](https://arxiv.org/abs/2505.24119) | | RedTeamCUA：在 Web-OS 混合环境中对计算机使用 Agent 进行真实的对抗性测试 | [链接](https://arxiv.org/abs/2505.21936) | | RRTL：在工具学习中对推理大语言模型进行红队测试 | [链接](https://arxiv.org/abs/2505.17106) | | 基于 LLM 红队测试能力的缩放定律 | [链接](https://arxiv.org/abs/2505.20162) | | 使用 GOAT 进行自动化红队测试：生成式攻击性 Agent 测试器 | [链接](https://arxiv.org/abs/2410.01606) | | 全局战略，局部适应：具有双层学习的多轮红队测试 Agent | [链接](https://arxiv.org/abs/2504.01278) | | 通过 Agent 即代理攻击绕过 AI 控制协议 | [链接](https://arxiv.org/abs/2602.05066) | | AJAR：用于红队测试的自适应越狱架构 | [链接](https://arxiv.org/abs/2601.10971) | 如果您喜欢我们的工作，请考虑引用。如果您想将您的工作添加到我们的分类中，请提交一个 pull request。 #### BibTex ``` @article{verma2024operationalizing, title={Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs)}, author={Verma, Apurv and Krishna, Satyapriya and Gehrmann, Sebastian and Seshadri, Madhavan and Pradhan, Anu and Ault, Tom and Barrett, Leslie and Rabinowitz, David and Doucette, John and Phan, NhatHai}, journal={arXiv preprint arXiv:2407.14937}, year={2024} } ```

标签：DLL 劫持, TruffleHog, 反取证, 大语言模型, 学习资源, 学术论文, 安全评估, 对抗攻击, 敏感信息检测, 防御加固