RitaNoble/hacking-the-llm-ai-goat-red-team

GitHub: RitaNoble/hacking-the-llm-ai-goat-red-team

针对 AI Goat™ 平台进行 LLM 应用安全红队评估，覆盖 OWASP LLM Top 10 (2025) 各类漏洞的复现与缓解建议。

Stars: 2 | Forks: 0

# 黑客攻击 LLM：使用 AI Goat™ 进行红队测试 ![OWASP LLM 2025](https://img.shields.io/badge/OWASP-LLM_Top_10_2025-blue) ![License](https://img.shields.io/badge/License-MIT-green) ![Security Audit](https://img.shields.io/badge/Security-Audit-red) ## 🎯 概述本项目记录了对 **AI Goat™**（一个开源的 LLM 安全演练平台）的全面安全评估。此次测试重点关注识别与 **OWASP Top 10 for LLM Applications (2025)** 相关的漏洞。 ## 🏗️ 目标环境 - **平台：** AI Goat™ (Cracky Chatbot) - **基础设施：** 使用 TinyLlama 的本地 Ollama 实例 - **工具：** Garak, MCP, Claude Desktop, SAST/DAST 工具 ## 🚩 关键发现与证据 ### LLM01: Prompt Injection 演示了绕过开发者指令以提取受保护信息并绕过安全过滤器的过程。 - **Payload：** [payloads/prompt_injection.txt](payloads/prompt_injection.txt) - **证据：** ![Prompt Injection](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/91d06c2066224205.png) ### LLM02: 敏感信息泄露成功检索到了内部架构细节、系统配置以及模拟的客户数据。 - **证据：** ![Information Disclosure](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/f9637587cb224210.png) ### LLM03: 供应链漏洞模拟了第三方模型组件中的后门，演示了恶意依赖项如何危害 AI pipeline。 - **证据：** ![Supply Chain](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/d59b3f9f23224220.png) ### LLM04: 数据与 RAG 投毒向 vector stores 中注入恶意上下文，导致知识损坏和价格覆盖。 - **Payload：** [payloads/rag_poisoning.json](payloads/rag_poisoning.json) - **证据：** ![RAG Poisoning](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/43370874c4224226.png) ### LLM05: 不当输出处理 (XSS) 通过诱导 LLM 生成恶意 HTML/JS，成功实现了存储型跨站脚本攻击 (XSS)。 - **证据：** ![XSS](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/d8203cd500224231.png) ### LLM06: 过度权限绕过授权逻辑发起了未经授权的操作，包括退款滥用和 API 执行。 - **Payload：** [payloads/excessive_agency.txt](payloads/excessive_agency.txt) - **证据：** ![Refund Abuse](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/6183e93169224236.png) ### LLM07: System Prompt 泄露成功对模型隐藏的指令和安全防护栏进行了逆向工程。 - **证据：** ![Prompt Leakage](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/56c490715c224245.png) ### LLM08: Vector 与 Embedding 漏洞操纵 vector database 导致检索错误，证明 RAG 系统的安全性仅取决于其数据存储的安全性。 - **证据：** ![Vector Poisoning](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/f761f4e8e3224246.png) ### LLM09: 虚假信息诱骗模型产生有关虚假政策和定价的幻觉。 - **Payload：** [payloads/misinformation.txt](payloads/misinformation.txt) - **证据：** ![Misinformation](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/d05760de3a224252.png) ## 🧪 自动化测试结果为了验证手动发现的结果，我运行了 **Garak**（一款 LLM 漏洞扫描器）。该工具证实了其对 prompt injection 和数据泄露的高度易感性。 ![Garak Results](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/e80609e60b224258.png) ## 🛡️ 缓解建议 | 漏洞 | 推荐防御措施 | | :--- | :--- | | **Prompt Injection** | 实施强大的系统级防护栏（例如 NeMo Guardrails）和输入清理。 | | **敏感数据** | 使用 PII 清理工具并严格执行输出过滤。 | | **RAG/Vector 攻击** | 对 vector database 实施完整性检查并使用“grounding”检查。 | | **过度权限** | 遵循最小权限原则：关键操作需要人在回路 (HITL)。 | ## 📂 最终报告完整的详细分析可在此处找到：**[Hacking_the_LLM_Report.pdf](report/Hacking_the_LLM_Report.pdf)** ## 👤 作者 **Chinyere Rita Okonkwo** 渗透测试员 | API 安全研究员 | AI 安全爱好者 - **LinkedIn：** [chinyere-rita-okonkwo](https://www.linkedin.com/in/chinyere-rita-okonkwo) - **GitHub：** [RitaNoble](https://github.com/RitaNoble) *免责声明：本项目是在受控实验室环境中进行的，仅供教育和防御性研究目的使用。*

标签：AI安全, AI风险缓解, Chat Copilot, CISA项目, DLL 劫持, Docker部署, OWASP Top 10, 大语言模型, 数据展示, 红队