SecureNexusLab/llm-prompt-injection-security-handbook

GitHub: SecureNexusLab/llm-prompt-injection-security-handbook

一份关于LLM提示词注入攻击与防御的综合性技术研究报告，揭示AI安全中最核心的漏洞问题并提供系统性缓解方案。

Stars: 20 | Forks: 3

# llm-prompt-injection-security-handbook

## 📖 项目简介《大语言模型安全威胁分析：提示词注入攻击与防御》是由 SecureNexusLab 团队独立安全研究员 **Zero** 编写的技术研究报告。根据 **OWASP 2025 LLM 应用 Top 10** 的权威评估，提示词注入已位居十大漏洞之首。本文档不仅是攻击手法的“兵工厂”，更是防御架构的“设计图纸”。文档深入剖析了 Transformer 架构下的指令-数据混淆问题，从数学本质（注意力机制）到工程实践（GCG优化、RAG投毒），再到企业级纵深防御架构部署，全方位覆盖了当前 AI 安全领域最核心的战场。 ## 🎯 适用读者 * **AI 安全研究人员**：深入理解 Prompt Injection 的底层机制与前沿对抗技术。 * **开发工程师**：构建 RAG、Agent 系统时规避架构级信任漏洞，实施有效防御。 * **安全分析师/红队**：掌握自动化攻击发现工具链与 ASR 测量标准。 ## ✨ 核心亮点 🔥 **攻击面全景拆解** * **直接注入**：系统提示词提取（社会工程学包装、对抗性优化）、角色劫持与越狱。 * **间接注入**：RAG 架构信任危机、企业知识库沦陷、**CVE-2025-32711 (EchoLeak)** 零点击攻击深度剖析、MCP/工具元数据投毒。 * **越狱家族**：DAN 1.0 至 12.0 演化史、假设框架滥用、翻译攻击（低资源语言绕过）。 🧮 **硬核技术解析** * **注意力机制的数学本质**：为什么 Prompt Injection 无法被“修补”，只能被“缓解”？ * **GCG (Greedy Coordinate Gradient)**：Token 级对抗性后缀的算法实现与跨模型迁移性分析。 * **自动化工具链**：`garak`、`PyRIT`、`HarmBench` 的深度使用与 `promptfoo` 的 CI/CD 集成。 🛡️ **企业级防御架构** * **不可根除性证明**：从图灵完备性与 Rice 定理出发，建立正确的防御预期。 * **Dual-LLM Pattern**：指令理解与内容生成的物理隔离设计。 * **四层纵深防御体系**：外部边界层 → 输入处理层 → 模型执行层 → 输出审查层的动态交互设计。 ## 📑 目录速览 * **一、什么是大模型提示词注入？**（概念本质、Transformer差异、根本属性） * **二、直接提示词注入**（条件模型、SystemPrompt提取、任务劫持） * **三、间接提示词注入**（RAG信任危机、知识库投毒、EchoLeak深度剖析、MCP投毒） * **四、越狱攻击**（对齐机制分析、角色扮演、假设框架、翻译攻击、DAN家族演化、编码类攻击） * **五、多轮攻击与对抗性后缀**（Crescendo攻击、GCG数学机制、自动化工具链） * **六、测量攻击成功率（ASR）**（LLM-as-Judge、标准化测量协议） * **七、护栏绕过**（输入/输出层绕过技术、分类器规避） * **八、防御架构部署与分析**（第一性原理、Dual-LLM、上下文管理、LLM-as-Judge防御） * **九、局限性与剩余风险**（长上下文新挑战、多智能体级联） * **十、未来展望**（TEE、形式化验证、监管与责任演进） ## 📄 文档信息 | 属性 | 详情 | | :--- | :--- | | **文档版本** | V1.0 | | **编制日期** | 2026-04-11 | | **编写模型** | KiMi_2.5_Pro | | **文档类型** | 技术研究报告 | | **文件格式** | PDF | ## 👤 作者与团队 * **作者**：Zero (独立安全研究员) * **团队**：SecureNexusLab * **经历**：某科技公司前网络安全讲师，参与腾讯朱雀实验室 AI 安全科普 Benchmark 构建，多次参与金融/教育行业众测及重保蓝队任务。 ## 🤝 联系与交流 * 📧 **邮箱**：Zero001023@163.com * 💬 **QQ交流群**：701604947 * 📱 **个人微信公众号**：青鸾sec * 📱 **团队微信公众号**：SecureNexusLab * 📺 **Bilibili**：[SecureNexusLab]([https://space.bilibili.com/3493268132203156]) * 🔗 **相关项目**：[LLMPromptAttackGuide](https://github.com/SecureNexusLab/LLMPromptAttackGuide) ## ⚖️ 免责声明与许可本项目内容仅供**安全研究与学习**使用。请勿将文档中的技术用于非法用途。在使用本文档信息时，请遵守您所在地区的法律法规。

标签：AI安全报告, AI安全研究, ASR测量标准, CVE-2025-32711, EchoLeak, GCG, Greedy Coordinate Gradient, Jailbreak, MCP安全, OWASP LLM Top 10, RAG安全, RAG投毒, Red Canary, Transformer架构, 中文技术报告, 企业知识库安全, 大语言模型安全, 安全架构设计, 对抗性后缀, 对抗性攻击, 指令数据混淆, 机密管理, 注意力机制, 直接注入, 纵深防御, 越狱, 逆向工具, 间接注入, 防御架构