zakky8/llm-jailbreak-taxonomy
GitHub: zakky8/llm-jailbreak-taxonomy
基于攻击机制的LLM越狱技术分类体系,收录30种攻击模式并提供实证评估协议,帮助研究者和安全从业者理解大语言模型的对齐失效问题并构建更鲁棒的防御策略。
Stars: 0 | Forks: 0
# LLM 越狱分类法
### 大型语言模型越狱技术的系统分类法:面向鲁棒的安全对齐
**Zakky** · 独立 AI 安全研究员 · 2026年2月
[]()
[]()
[]()
[]()
[]()
## 概述
有效防御针对 LLM 的对抗性攻击需要精确理解攻击面。本仓库记录了一套系统的、基于机制的越狱技术分类法,其组织依据是每种技术所利用的具体对齐假设——而非表面的 Prompt 模式。
该分类法目前涵盖 **6 个类别中的 30 种攻击模式**,每种模式均记录了:
- 作用机制及潜在的对齐失效
- 复杂度范围(从简单到高级)
- 明确阐述的被利用假设
- 文献依据及主要参考文献
- 第二阶段实证测试的评估协议
本工作在**负责任披露原则**下进行。研究重点是分类和防御评估——而非攻击优化。
## 研究问题
## 六类别分类法
| # | 类别 | Notebook | 模式 | 利用的对齐假设 | 优先级 |
|---|---|---|:---:|---|:---:|
| 1 | 角色扮演与人格攻击 | `experiment_01` | 5 | 安全目标在虚构框架下主导指令遵循 | HIGH |
| 2 | 直接 Prompt 注入 | `experiment_02` | 5 | 模型能可靠区分授权指令与对抗性指令 | HIGH |
| 3 | Token 级别走私 | `experiment_03` | 7 | 安全分类器能跨编码方案泛化 | MED-HIGH |
| 4 | 上下文窗口操纵 | `experiment_04` | 4 | 安全指令无论位置如何均保持一致影响 | MED |
| 5 | 多轮对话欺骗 | `experiment_05` | 4 | 单轮安全评估即充分 | HIGH |
| 6 | 系统 Prompt 提取 | `experiment_06` | 5 | 系统 Prompt 在对抗性压力下保持机密性 | MED |
**为何设置这些优先级?** 角色扮演、注入和多轮攻击结合了高观察有效性与结构性对齐失效,且不太可能通过表面补丁解决。多轮欺骗受到特别关注,因为相对于其观察到的有效性,它是当前安全基准测试中最缺乏代表性的类别。
## 威胁模型
**黑盒对手** — 仅限 API 访问,无模型权重或梯度。
对手知识渊博(熟悉 RLHF、Constitutional AI 和已发表的越狱文献),具有适应性(能根据模型响应进行迭代),且符合现实(在生产部署约束下操作)。这反映了已部署 LLM 应用中的主要威胁。
## 仓库结构
```
llm-jailbreak-taxonomy/
│
├── README.md ← This file
├── RESEARCH.md ← Full methodology, threat model, research status
│
├── paper/
│ └── research-paper.md ← Full academic paper (preprint draft)
│
├── notebooks/
│ ├── experiment_01_roleplay.ipynb ← Cat. 1: Role-Play & Persona Attacks
│ ├── experiment_02_injection.ipynb ← Cat. 2: Direct Prompt Injection
│ ├── experiment_03_token_smuggling.ipynb ← Cat. 3: Token-Level Smuggling
│ ├── experiment_04_context.ipynb ← Cat. 4: Context Window Manipulation
│ ├── experiment_05_multiturn.ipynb ← Cat. 5: Multi-Turn Deception
│ └── experiment_06_extraction.ipynb ← Cat. 6: System Prompt Extraction
│
├── data/
│ ├── prompt_patterns.csv ← 30 categorized attack pattern records
│ └── results/
│ ├── METHODOLOGY.md ← Phase 2a/2b testing protocols
│ └── phase2a_manual_observations.csv ← 22 manual trials (Claude + ChatGPT)
│
└── findings/
├── preliminary_results.md ← Pre-empirical observations & cross-category analysis
├── lesswrong_af_post_draft.md ← Draft post for LessWrong / AI Alignment Forum
└── program_application_draft.md ← Draft application for API access program
```
每个实验 Notebook 包含:分类法数据类定义、机制分析、对齐假设映射、可视化、第二阶段评估协议以及准备用于数据摄入的结果模式。
## 研究状态
| 阶段 | 描述 | 状态 |
|---|---|---|
| Phase 1 | 文献综述、分类法构建、Notebook 框架 | ✅ 已完成 |
| Phase 2a | 手动定性观察 — 22 次试验,Claude + ChatGPT | ✅ 已完成 |
| Phase 2b | 受控 API 评估 — 多模型,每种变体 ≥5 次试验 | 🔳 进行中 |
| Phase 3 | 跨类别分析、防御映射、发表 | ⏳ 待定 |
**Phase 1 交付物完成:** 六类别分类法、30 种模式、机制到假设映射、按类别评估协议、预印本论文草稿、6 个实验 Notebook。
**Phase 2a 完成:** 跨 RP、PI、TS、SE 类别的 22 次手动观察。Claude:所有简单/中级单轮模式的严重性为 0。ChatGPT:RP-02、RP-04、TS-01、TS-05 的严重性为 1 — 跨模型差异已确认。完整数据:`data/results/phase2a_manual_observations.csv`。
**Phase 2 进行中** — 等待 API 访问以进行受控评估。
## 初步发现(实证前)
基于文献综述和有限的定性测试:
**发现 1 — 角色扮演攻击在结构上仍未解决。** Wei et al. (2023) 确定目标竞争是根本原因。多轮安全微调未能消除该漏洞,表明若不解决潜在的目标冲突,就无法修补此问题。
**发现 2 — 多轮攻击代表了最大的基准覆盖缺口。** Liu et al. (2024) 报告多轮攻击的成功率显著高于等效的单轮攻击。标准基准(HarmBench、MT-Bench 安全变体)主要评估单轮输入——这是一个对生产安全有直接影响的测量缺口。
**发现 3 — Token 走私的有效性在不同模型家族间差异显著。** Zou et al. (2023) 展示了跨模型可迁移性,但成功率差异很大。这种差异表明模型在安全分类器是基于原始 Token、解码表示还是语义内容进行操作上存在不同——这是一个具有防御意义的架构问题。
**发现 4 — 系统 Prompt 提取是一种力量倍增器。** 成功提取为对手提供了精确的约束边界,使其能够在所有其他五个类别中发起针对性攻击。其风险是系统性的,而非孤立的。
完整的初步发现:[`findings/preliminary_results.md`](findings/preliminary_results.md)
## 计划产出
| 产出 | 描述 | 状态 |
|---|---|---|
| 研究论文 | 完整的分类法、实证结果、防御建议 | 草稿已完成 |
| 评估数据集 | 分类的 Prompt 模式 + 实证结果 | 模式已记录;结果待定 |
| 开源基准 | 可复现的越狱鲁棒性评估框架 | 计划中 (Phase 3) |
| 负责任披露 | 关键发现在发表前与模型提供商共享 | 协议已建立 |
## 负责任披露
所有重大发现将在任何公开发布之前披露给受影响的模型提供商。本研究旨在加强 AI 安全防御——而非助长滥用。特定的有害 Payload 被排除在所有公开文档之外;仅发布机制和结构模式。
如有敏感发现或合作咨询,请在任何公开披露前联系。
## 参考文献
- Anil, C., et al. (2024). Many-shot jailbreaking. *Anthropic Research.*
- Anthropic. (2025). Constitutional Classifiers: Defending against universal jailbreak attacks.
- Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI feedback. *arXiv:2212.08073.*
- Greshake, K., et al. (2023). Compromising LLM-integrated applications with indirect prompt injection. *ACM CCS.*
- Liu, Y., et al. (2024). Jailbreaking LLMs in few queries via disguise and reconstruction. *USENIX Security.*
- Perez, E., et al. (2022). Red teaming language models with language models. *EMNLP.*
- Shen, X., et al. (2023). Characterizing and evaluating in-the-wild jailbreak prompts. *ACM CCS.*
- Wei, A., et al. (2023). Jailbroken: How does LLM safety training fail? *NeurIPS 36.*
- Zou, A., et al. (2023). Universal and transferable adversarial attacks on aligned language models. *ICML.*
*本研究在负责任披露原则下进行。所有实证工作遵循 AI 安全研究的伦理准则。*
标签:AI安全, Chat Copilot, ChatGPT安全, DLL 劫持, Kubernetes 安全, NoSQL, 上下文操纵, 人工智能治理, 令牌走私, 分类法, 域名收集, 大语言模型, 安全对齐, 对抗性机器学习, 对齐失败, 攻击模式, 机制分类, 模型鲁棒性, 深度伪造防御, 网络安全, 角色扮演攻击, 负责任披露, 逆向工具, 防御加固, 隐私保护