AlienZhang1996/DH-CoT
GitHub: AlienZhang1996/DH-CoT
针对商业黑盒 LLM(特别是推理模型)的越狱攻击工具及恶意内容检测框架,包含 D-Attack、DH-CoT 两种攻击方法和 MDH 数据清洗工具。
Stars: 11 | Forks: 0
# 利用显式有害提示对商业黑盒 LLM 进行越狱
本文的官方 [PyTorch](https://pytorch.org/) 实现:
[利用显式有害提示对商业黑盒 LLM 进行越狱](http://arxiv.org/abs/2508.10390)
[Chiyu Zhang](https://alienzhang1996.github.io/), [Lu Zhou](https://faculty.nuaa.edu.cn/zhoulu2020/zh_CN/index.htm), [Xiaogang Xu](https://scholar.google.com/citations?user=R65xDQwAAAAJ), [Jiafei Wu](https://dblp.org/pid/227/7227.html), [Liming Fang](https://scholar.google.com/citations?user=8p2FacYAAAAJ), [Zhe Liu](https://scholar.google.com/citations?user=Em0jNiUAAAAJ)
现有的黑盒越狱攻击在非推理模型上取得了一定成功,但在最近的 SOTA 推理模型上效果显著下降。为了提高攻击能力,受对抗性聚合策略启发,我们将多种越狱技巧整合到一个单一的开发者模板中。特别是,我们应用**对抗性上下文对齐**来消除语义不一致性,并使用基于 NTP(一种有害提示)的少样本示例来引导恶意输出,最后通过伪造的思维链形成 **DH-CoT** 攻击。在实验中,我们进一步观察到现有的红队数据集包含不适合评估攻击收益的样本,例如 BPs、NHPs 和 NTPs。此类数据阻碍了对真实攻击效果提升的准确评估。为了解决这个问题,我们引入了 **MDH**,这是一个集成了基于 LLM 的标注与**人类**辅助的**恶意**内容**检测**框架,我们用它清理数据并构建 **RTA** 数据集套件。实验表明,MDH 可靠地过滤了低质量样本,并且 DH-CoT 有效地越狱了包括 GPT-5 和 Claude-4 在内的模型,其性能显著优于 H-CoT 和 TAP 等 SOTA 方法。
### MDH
|  |  |
| :----------------------------------------------------------: | :----------------------------------------: |
| 红队数据集中提示(样本)的分类法。SG 表示安全卫士。 | MDH 工作流程及其在数据清洗中的应用。 |
### D-Attack & DH-CoT
|  |
| :----------------------------------------------------------: |
| D-Attack 和 DH-CoT 的流程图,使用来自 GPT-4o 和 o4-Mini 的示例。 |
**待办清单**
- 上传实验代码
- 上传 RTA 数据集
- 上传 MDH 的越狱响应检测判断文件
## RTA 数据集系列
### 数据分布
D-Attack 在 RTA 系列数据集上的 ASR。
### DH-CoT
标签:Claude-4, CoT劫持, DLL 劫持, GPT-5, PyTorch, 人工智能安全, 内容审核, 凭据扫描, 反取证, 合规性, 大语言模型, 安全评估, 对抗样本, 恶意内容检测, 推理模型攻击, 提示词工程, 数据清洗, 文本分类, 深度学习, 策略决策点, 逆向工具, 黑盒攻击