SecureNexusLab/llm-prompt-injection-security-handbook

GitHub: SecureNexusLab/llm-prompt-injection-security-handbook

一份关于LLM提示词注入攻击与防御的综合性技术研究报告,揭示AI安全中最核心的漏洞问题并提供系统性缓解方案。

Stars: 20 | Forks: 3

# llm-prompt-injection-security-handbook

Version Topic Language OWASP Ranking

## 📖 项目简介 《大语言模型安全威胁分析:提示词注入攻击与防御》是由 SecureNexusLab 团队独立安全研究员 **Zero** 编写的技术研究报告。 根据 **OWASP 2025 LLM 应用 Top 10** 的权威评估,提示词注入已位居十大漏洞之首。本文档不仅是攻击手法的“兵工厂”,更是防御架构的“设计图纸”。文档深入剖析了 Transformer 架构下的指令-数据混淆问题,从数学本质(注意力机制)到工程实践(GCG优化、RAG投毒),再到企业级纵深防御架构部署,全方位覆盖了当前 AI 安全领域最核心的战场。 ## 🎯 适用读者 * **AI 安全研究人员**:深入理解 Prompt Injection 的底层机制与前沿对抗技术。 * **开发工程师**:构建 RAG、Agent 系统时规避架构级信任漏洞,实施有效防御。 * **安全分析师/红队**:掌握自动化攻击发现工具链与 ASR 测量标准。 ## ✨ 核心亮点 🔥 **攻击面全景拆解** * **直接注入**:系统提示词提取(社会工程学包装、对抗性优化)、角色劫持与越狱。 * **间接注入**:RAG 架构信任危机、企业知识库沦陷、**CVE-2025-32711 (EchoLeak)** 零点击攻击深度剖析、MCP/工具元数据投毒。 * **越狱家族**:DAN 1.0 至 12.0 演化史、假设框架滥用、翻译攻击(低资源语言绕过)。 🧮 **硬核技术解析** * **注意力机制的数学本质**:为什么 Prompt Injection 无法被“修补”,只能被“缓解”? * **GCG (Greedy Coordinate Gradient)**:Token 级对抗性后缀的算法实现与跨模型迁移性分析。 * **自动化工具链**:`garak`、`PyRIT`、`HarmBench` 的深度使用与 `promptfoo` 的 CI/CD 集成。 🛡️ **企业级防御架构** * **不可根除性证明**:从图灵完备性与 Rice 定理出发,建立正确的防御预期。 * **Dual-LLM Pattern**:指令理解与内容生成的物理隔离设计。 * **四层纵深防御体系**:外部边界层 → 输入处理层 → 模型执行层 → 输出审查层的动态交互设计。 ## 📑 目录速览 * **一、什么是大模型提示词注入?**(概念本质、Transformer差异、根本属性) * **二、直接提示词注入**(条件模型、SystemPrompt提取、任务劫持) * **三、间接提示词注入**(RAG信任危机、知识库投毒、EchoLeak深度剖析、MCP投毒) * **四、越狱攻击**(对齐机制分析、角色扮演、假设框架、翻译攻击、DAN家族演化、编码类攻击) * **五、多轮攻击与对抗性后缀**(Crescendo攻击、GCG数学机制、自动化工具链) * **六、测量攻击成功率(ASR)**(LLM-as-Judge、标准化测量协议) * **七、护栏绕过**(输入/输出层绕过技术、分类器规避) * **八、防御架构部署与分析**(第一性原理、Dual-LLM、上下文管理、LLM-as-Judge防御) * **九、局限性与剩余风险**(长上下文新挑战、多智能体级联) * **十、未来展望**(TEE、形式化验证、监管与责任演进) ## 📄 文档信息 | 属性 | 详情 | | :--- | :--- | | **文档版本** | V1.0 | | **编制日期** | 2026-04-11 | | **编写模型** | KiMi_2.5_Pro | | **文档类型** | 技术研究报告 | | **文件格式** | PDF | ## 👤 作者与团队 * **作者**:Zero (独立安全研究员) * **团队**:SecureNexusLab * **经历**:某科技公司前网络安全讲师,参与腾讯朱雀实验室 AI 安全科普 Benchmark 构建,多次参与金融/教育行业众测及重保蓝队任务。 ## 🤝 联系与交流 * 📧 **邮箱**:Zero001023@163.com * 💬 **QQ交流群**:701604947 * 📱 **个人微信公众号**:青鸾sec * 📱 **团队微信公众号**:SecureNexusLab * 📺 **Bilibili**:[SecureNexusLab]([https://space.bilibili.com/3493268132203156]) * 🔗 **相关项目**:[LLMPromptAttackGuide](https://github.com/SecureNexusLab/LLMPromptAttackGuide) ## ⚖️ 免责声明与许可 本项目内容仅供**安全研究与学习**使用。请勿将文档中的技术用于非法用途。在使用本文档信息时,请遵守您所在地区的法律法规。
标签:AI安全报告, AI安全研究, ASR测量标准, CVE-2025-32711, EchoLeak, GCG, Greedy Coordinate Gradient, Jailbreak, MCP安全, OWASP LLM Top 10, RAG安全, RAG投毒, Red Canary, Transformer架构, 中文技术报告, 企业知识库安全, 大语言模型安全, 安全架构设计, 对抗性后缀, 对抗性攻击, 指令数据混淆, 机密管理, 注意力机制, 直接注入, 纵深防御, 越狱, 逆向工具, 间接注入, 防御架构