AlienZhang1996/DH-CoT

GitHub: AlienZhang1996/DH-CoT

针对商业黑盒 LLM（特别是推理模型）的越狱攻击工具及恶意内容检测框架，包含 D-Attack、DH-CoT 两种攻击方法和 MDH 数据清洗工具。

Stars: 11 | Forks: 0

# 利用显式有害提示对商业黑盒 LLM 进行越狱本文的官方 [PyTorch](https://pytorch.org/) 实现： [利用显式有害提示对商业黑盒 LLM 进行越狱](http://arxiv.org/abs/2508.10390) [Chiyu Zhang](https://alienzhang1996.github.io/), [Lu Zhou](https://faculty.nuaa.edu.cn/zhoulu2020/zh_CN/index.htm), [Xiaogang Xu](https://scholar.google.com/citations?user=R65xDQwAAAAJ), [Jiafei Wu](https://dblp.org/pid/227/7227.html), [Liming Fang](https://scholar.google.com/citations?user=8p2FacYAAAAJ), [Zhe Liu](https://scholar.google.com/citations?user=Em0jNiUAAAAJ) 现有的黑盒越狱攻击在非推理模型上取得了一定成功，但在最近的 SOTA 推理模型上效果显著下降。为了提高攻击能力，受对抗性聚合策略启发，我们将多种越狱技巧整合到一个单一的开发者模板中。特别是，我们应用**对抗性上下文对齐**来消除语义不一致性，并使用基于 NTP（一种有害提示）的少样本示例来引导恶意输出，最后通过伪造的思维链形成 **DH-CoT** 攻击。在实验中，我们进一步观察到现有的红队数据集包含不适合评估攻击收益的样本，例如 BPs、NHPs 和 NTPs。此类数据阻碍了对真实攻击效果提升的准确评估。为了解决这个问题，我们引入了 **MDH**，这是一个集成了基于 LLM 的标注与**人类**辅助的**恶意**内容**检测**框架，我们用它清理数据并构建 **RTA** 数据集套件。实验表明，MDH 可靠地过滤了低质量样本，并且 DH-CoT 有效地越狱了包括 GPT-5 和 Claude-4 在内的模型，其性能显著优于 H-CoT 和 TAP 等 SOTA 方法。 ### MDH | ![子图1](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/87d0f830c9125832.png) | ![子图2](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/ac50b54837125848.png) | | :----------------------------------------------------------: | :----------------------------------------: | | 红队数据集中提示（样本）的分类法。SG 表示安全卫士。 | MDH 工作流程及其在数据清洗中的应用。 | ### D-Attack & DH-CoT | ![子图1](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/0179206ef8125907.png) | | :----------------------------------------------------------: | | D-Attack 和 DH-CoT 的流程图，使用来自 GPT-4o 和 o4-Mini 的示例。 | **待办清单** - 上传实验代码 - 上传 RTA 数据集 - 上传 MDH 的越狱响应检测判断文件 ## RTA 数据集系列 ### 数据分布

子图1

### 数据集清洗摘要 | Dataset | Original Size | Current Size | Types | Removed | Modified | Edit-Removal Ratio (%) | | :---------------: | :-----------: | :----------: | :---: | :-----: | :------: | :--------------------: | | SafeBench | 500 | 350 | 7/10 | 150 | 38 | 37.6 | | QuestionSet | 390 | 270 | 9/13 | 120 | 49 | 43.34 | | JailbreakStudy | 40 | 35 | 7/8 | 5 | 8 | 32.5 | | BeaverTails | 700 | 500 | 9/14 | 200 | 190 | 55.71 | | MaliciousEducator | 50 | 50 | 8/10 | 0 | 0 | 0 | *Types* 列显示清洗（移除/合并）后的类型数量和原始数量。*Removed* 和 *Modified* 列分别表示被移除和重写的样本。 ### 原始攻击的拒绝率

每个数据集的拒绝率（以补数形式报告，即 1 − 拒绝率），以便与*越狱结果*章节中的结果进行比较。*All* 包括所有恶意类型的样本；*w/o AC* 排除成人内容样本。原始攻击是指直接使用数据集中的提示查询 LLM 的情况。 ## 越狱结果 ### D-Attack

D-Attack 在 RTA 系列数据集上的 ASR。

### DH-CoT

此表格比较了 DH-CoT 和 D-Attack 与当前最先进的越狱攻击在 RTA-MaliciousEducator 数据集上的 ASR。比较方法分为三类：**1) 基于查询的灰盒方法（顶部）**，**2) 基于模板的黑盒方法（中部）**，以及 **3) 基于 CoT 的黑盒方法（底部）**。*Vanilla* 表示未应用任何攻击时的攻击成功率。PAIR 和 TAP 是基于查询的灰盒方法，而 DeepInception 和 SelfCipher 是基于模板的黑盒方法。H-CoT 是一种基于 CoT 的黑盒方法。白盒方法需要梯度或其他内部模型信息，因此无法在商业黑盒模型上进行评估。列标签 *3.5, 4o, 4.1, 5, 5.1, o1-m, o1, o3-m, o3, o4-m, 2.5-pro, 2.5-f-t, c35-s, c37-s, c4-s, c37-s-t, c4-s-t, d-v3, d-r1-0528* 和 *d-r1* 分别表示受害者模型 G*PT-3.5, GPT-4o, GPT-4.1, GPT-5, GPT-5.1, o1-Mini, o1, o3-Mini, o3, o4-Mini, Gemini-2.5-pro, Gemini-2.5-Flash-Thinking, Claude-3-5-Sonnet, Claude-3-7-Sonnet, Claude-3-7-Sonnet-Thinking, Claude-Sonnet-4, Claude-Sonnet-4-Thinking, Deepseek-V3, Deepseek-R1-250528* 和 *Deepseek-R1*。*Sys* 和 *Dep* 是 System 和 Developer 提示角色的缩写。短横线（“-”）表示受害者不支持开发者角色。蓝色阴影列标记的是推理模型。所有实验结果均使用 MDH 计算。每个实验运行三次并报告最佳值。每个受害者模型的最佳结果以粗体显示。

标签：Claude-4, CoT劫持, DLL 劫持, GPT-5, PyTorch, 人工智能安全, 内容审核, 凭据扫描, 反取证, 合规性, 大语言模型, 安全评估, 对抗样本, 恶意内容检测, 推理模型攻击, 提示词工程, 数据清洗, 文本分类, 深度学习, 策略决策点, 逆向工具, 黑盒攻击