Hellsender01/prompt-injection-taxonomy

GitHub: Hellsender01/prompt-injection-taxonomy

一份面向 LLM 安全从业者的提示词注入技术分类参考,涵盖 247 种技术、17 个攻击类别,并与 OWASP LLM Top 10 完整映射,填补了零散技巧清单与纯学术论文之间的空白。

Stars: 0 | Forks: 0

# 提示词注入分类法 一份由从业者构建的结构化参考,涵盖了 17 个攻击类别、4 种注入类别以及完整 OWASP LLM Top 10 威胁面的 247 种提示词注入技术。 专为需要一种系统化方法来理解、测试和防御实际部署中提示词注入的 AI 红队人员、安全工程师和 LLM 应用开发者而构建。 ## 这是什么 大多数提示词注入资源要么太浅(仅仅是越狱单行列表),要么太学术(没有可操作技术细节的威胁模型论文)。本分类法介于两者之间:每个条目都包含命名的技术、投递载体、攻击类别、技术类型、规避方法、潜在影响、OWASP LLM Top 10 映射以及具体的示例提示词。 其目标是为红队人员提供完整的攻击面地图,并为防御者提供关于其实际防御对象的 structured view(结构化视图)。 ## 一览 | 维度 | 数量 | |---|---| | 技术总数 | 247 | | 攻击类别 | 17 | | 注入类别 | 4 | | 技术类型 | 22 | | 规避/混淆方法 | 20 | | 潜在影响类型 | 18 | | 映射的 OWASP LLM Top 10 条目 | 7 | ### 按攻击类别划分的技术 | 攻击类别 | 技术 | |---|---| | Cognitive Control Bypass | 63 | | Instruction Reformulation | 38 | | Overt Instruction | 20 | | Context / Attention Attack | 14 | | Model-Specific Exploit | 13 | | Integrative Instruction Prompting | 12 | | Multimodal Prompting Attacks | 11 | | Defense Evasion | 11 | | Integration Surface Attack | 11 | | Agentic / Tool-Use Attack | 10 | | Covert Channel / Side-Channel | 10 | | Linguistic / Semantic Attack | 10 | | RAG-Specific Attack | 9 | | Social / Systemic Attack | 5 | | Output-Targeting Attack | 4 | | Prompt Boundary Manipulation | 3 | | Safety System Attack | 3 | ### 按注入类别划分的技术 | 注入类别 | 技术 | |---|---| | Direct Prompt Injection | 209 | | Indirect — Context-Data | 27 | | Agentic / Pipeline | 7 | | Indirect — User-Delivered | 4 | ## 仓库结构 ``` prompt-injection-taxonomy/ │ ├── README.md ├── CHANGELOG.md ├── LICENSE │ ├── checklist/ │ └── Prompt_Injection_Master_Checklist.xlsx │ ├── docs/ │ ├── injection-classes.md │ ├── taxonomy-overview.md │ ├── technique-types.md │ ├── evasion-methods.md │ └── owasp-mapping.md │ └── contributing/ └── CONTRIBUTING.md ``` ## 如何使用清单 Excel 文件包含两个工作表。 **PI Checklist(提示词注入清单)** 包含所有 247 个条目。每一行代表一种技术,包含以下列: - **ID** — 唯一标识符(PI-001 至 PI-247) - **Injection Class** — 注入到达模型的方式 - **Delivery Vector** — 具体的投递机制 - **Attack Category** — 战略攻击族 - **Technique Name** — 命名的技术 - **Sub-Technique / Variant** — 具体的变体或子方法 - **Technique Type** — 操作方法 - **Evasion / Obfuscation Method** — 如何绕过检测 - **Potential Impact** — 成功攻击达成的效果 - **OWASP LLM Top 10** — 映射的风险分类 - **Example Prompt** — 具体的演示提示词 **Taxonomy Reference(分类法参考)** 是一个配套工作表,用通俗易懂的语言解释了每个类别、类型、规避方法和影响。清单中的颜色编码与分类法相匹配 —— B 列(Injection Class)或 D 列(Attack Category)中的任何颜色都直接映射到分类法工作表中的相同颜色。 **对于红队人员:** 从侦察扫描开始(PI-165 至 PI-175),然后研究与您的目标部署最相关的攻击类别。Agentic 部署应优先考虑 PI-140 至 PI-165 和 PI-219 至 PI-247。RAG 系统应优先考虑 PI-130 至 PI-155。 **对于防御者:** 使用 OWASP 映射列按风险分类对发现进行分组。使用 Attack Category 列了解您的控制措施覆盖和未覆盖哪些威胁族。 ## 文档 - [注入类别](docs/injection-classes.md) — 注入到达模型的四种方式 - [分类法概述](docs/taxonomy-overview.md) — 所有 17 个攻击类别及其描述和技术数量 - [技术类型](docs/technique-types.md) — 技术中使用的 22 种操作方法 - [规避方法](docs/evasion-methods.md) — 20 种混淆方法及其检测难度 - [OWASP LLM Top 10 映射](docs/owasp-mapping.md) — 每种技术如何映射到 OWASP LLM 风险框架 ## 版本控制 查看 [CHANGELOG.md](CHANGELOG.md) 获取完整的版本历史和变更理由。 当前版本:**v3** ## 许可证 [Creative Commons Zero v1.0 Universal (CC0)](LICENSE) 您可以自由地以任何形式使用、分享、改编和基于本作品进行构建,包括商业用途,无需请求许可或注明出处。无需署名。 ## OWASP LLM Top 10 参考 本分类法映射到 [OWASP LLM Top 10](https://owasp.org/www-project-top-10-for-large-language-model-applications/) 风险分类。条目标记有最相关的 LLM 风险类别。LLM01(Prompt Injection)按设计覆盖了分类法的最大份额;LLM02、LLM04、LLM06、LLM07、LLM09 和 LLM10 也有代表。
标签:AIGC安全, AI漏洞, AI红队, DLL 劫持, DNS 反向解析, OWASP LLM Top 10, Prompt注入, RAG安全, Red Canary, 人工智能安全, 分类法, 反取证, 合规性, 域名收集, 多模态攻击, 大语言模型, 安全评估, 密码管理, 攻击矩阵, 网络安全, 认知控制, 防御加固, 隐私保护