Sumera01/LLM-Red-Teaming-Adversarial-Vulnerability-Scanning-with-Garak

GitHub: Sumera01/LLM-Red-Teaming-Adversarial-Vulnerability-Scanning-with-Garak

基于NVIDIA Garak框架的LLM红队测试实战项目，通过系统化对抗性探测量化评估语言模型的漏洞风险和攻击成功率。

Stars: 0 | Forks: 0

# LLM 红队测试 — 使用 Garak 进行对抗性漏洞扫描这是一个实战型 AI 安全研究项目，使用 NVIDIA 的开源红队测试框架 [Garak](https://github.com/NVIDIA/garak)，实证测量针对语言模型的对抗性探测攻击成功率。这项工作是对 **多阶段提示注入与 LLM 漏洞评估** 持续研究的一部分，与 [OWASP LLM 应用 Top 10](https://owasp.org/www-project-top-10-for-large-language-model-applications/) 和 [MITRE ATLAS](https://atlas.mitre.org/) 威胁框架直接对齐。 ## 实验摘要 | 参数 | 值 | |---|---| | **工具** | Garak v0.14.1 (NVIDIA) | | **目标模型** | `distilgpt2` (8200万参数, HuggingFace) | | **目标类型** | `huggingface` | | **探测** | `malwaregen.Evasion` | | **总尝试次数** | 960 次对抗性输入 | | **攻击成功率** | **2.50%** (95% 置信区间: 1.56% – 3.54%) | | **成功攻击** | 24 / 960 | | **运行时间** | ~26 分钟 (Google Colab, 免费 CPU) | | **环境** | Google Colab, Python 3.12 | ## 测试内容 `malwaregen.Evasion` 探测测试语言模型是否能在提示下生成功能性、混淆的恶意软件代码——这是对模型围绕代码生成的安全边界的直接测试。 **为何这很重要：** 即使是像 `distilgpt2` 这样广泛部署的小型模型，在对抗条件下也可能产生有害输出。在 960 次尝试中 2.5% 的 ASR 意味着 **24 次真实的攻击成功**——每一次都代表了一个模型绕过其预期行为的场景。 ## 主要发现 ## 复现此实验 ### 前置条件 - Python 3.8+ - Google Colab（免费版）或任何具有 2GB+ RAM 的 Linux 环境 ### 步骤 ``` # 安装 Garak pip install garak # 运行 probe garak --target_type huggingface \ --target_name distilgpt2 \ --probes malwaregen.Evasion ``` 报告将保存至： ``` ~/.local/share/garak/garak__report.html ~/.local/share/garak/garak__report.jsonl ``` ## 仓库结构 ``` LLM-Red-Teaming-Adversarial-Vulnerability-Scanning-with-Garak/ ├── Garak.ipynb # Colab notebook — full experiment, reproducible ├── findings_summary.md # Interpreted results and analysis ├── garak_distilgpt2_malwaregen_report.html # Full Garak HTML report └── README.md ``` ## 接下来的计划本仓库会持续更新。实验 1（`distilgpt2` × `malwaregen.Evasion`）是基线。计划进行的实验： | # | 模型 | 探测 | 状态 | |---|---|---|---| | 1 | `distilgpt2` | `malwaregen.Evasion` | ✅ 已完成 | | 2 | `gpt2-xl` | `malwaregen.Evasion`, `dan` | 🔄 计划中 | | 3 | `Mistral-7B` | `promptinject`, `continuation` | 🔄 计划中 | | 4 | `Llama-3-8B` | 多个探测 | 🔄 计划中 | **目标：** 构建一个跨模型、跨探测的 ASR 比较表，以识别哪些模型系列和探测类型产生最高的攻击成功率。 ## 作者 **Sumera Shaikh** B.Tech CSE, D.Y. Patil Education Society (Deemed University), Kolhapur [作品集](https://sumera-profile.vercel.app/) | [GitHub](https://github.com/Sumera01) | [LinkedIn](https://www.linkedin.com/in/sumera-shaikh0110/) ## 参考文献 1. NVIDIA, "Garak: LLM Vulnerability Scanner," https://github.com/NVIDIA/garak 2. Y. Liu et al., "Formalizing and Benchmarking Prompt Injection Attacks and Defenses," USENIX Security 2024 3. O. Brodt et al., "The Promptware Kill Chain," arXiv:2601.09625, 2026 4. OWASP GenAI Security Project, "OWASP Top 10 for LLM Applications 2025" 5. MITRE Corporation, "ATLAS v5.4.0," 2026

标签：AI安全, AI风险治理, ASR, Chat Copilot, DistilGPT-2, DNS 反向解析, Garak, Google Colab, HuggingFace, LLM红队, Malware Generation, MITRE ATLAS, NoSQL, NVIDIA Garak, OWASP Top 10 LLM, Python, 人工智能对抗性鲁棒性, 代码生成安全, 反取证, 后端开发, 多阶段攻击, 大语言模型安全, 安全评估, 安全边界测试, 密码管理, 对抗性攻击, 对抗性测试, 恶意软件生成, 攻击成功率, 无后门, 机密管理, 权限管理, 模型越狱, 逆向工具, 配置审计