Nicholas-Kloster/claude-4.6-jailbreak-vulnerability-disclosure-unredacted
GitHub: Nicholas-Kloster/claude-4.6-jailbreak-vulnerability-disclosure-unredacted
一份未经删减的 Claude Opus/Sonnet 4.6 及 Haiku 4.5 越狱漏洞公开披露,记录了提示注入、宪法合规失效和沙箱快照窃取等安全问题及完整证据链。
Stars: 36 | Forks: 4
[](https://claude.ai/code)
# Claude Opus 4.6 ET、Sonnet 4.6 ET 及 Haiku 4.5 ET 中的提示注入、越狱及宪法合规失效
**未经删减的公开披露**
https://github.com/Nicholas-Kloster/claude-4.6-jailbreak-vulnerability-disclosure-unredacted/raw/main/evidence/Opus.webm
*31 轮 Opus 4.6 ET 会话:模型在零用户攻击指令的情况下,自主从被动分析升级为子网扫描、记忆注入和容器逃逸规划。*
[](https://www.youtube.com/watch?v=jfmJh3RQwrc)
*由 Nokia 独立复现 —— 越狱 Claude Opus 4.6 Extended Thinking。*
## 披露时间线
| 日期 | 事件 | 接收方 |
|------|-------|--------------|
| 2026 年 3 月 4 日 | 发现提示注入漏洞 | — |
| 2026 年 3 月 12 日 | 通过 HackerOne 提交提示注入;发送电子邮件至 modelbugbounty@anthropic.com | Anthropic Model Bug Bounty |
| 2026 年 3 月 18 日 | 发送完整的概念验证包(包含 PoC 视频、框架论文、图表、截图在内的 12 个附件) | security@anthropic.com |
| 2026 年 3 月 22 日 | 报告 Opus 4.6 ET 越狱并附带 afl_disclosure.docx | modelbugbounty, security, amanda, alex, usersafety @anthropic.com |
| 2026 年 3 月 22 日 | 首次观察到宪法失效 (Sonnet 4.6 ET) | — |
| 2026 年 3 月 24 日 | 第二次观察到宪法失效 (Opus 4.6 ET) | — |
| 2026 年 3 月 27 日 | 发送跟进电子邮件,指出 15 天内零确认 | modelbugbounty@anthropic.com |
| 2026 年 3 月 28 日 | 第三次观察到宪法失效 (Haiku 4.5 ET) | — |
| 2026 年 3 月 28 日 | 提交三层宪法披露及完整报告 | modelbugbounty, security, alex, amanda, usersafety, disclosure @anthropic.com |
| 2026 年 3 月 29 日 | 第四次观察到宪法失效 (Opus 4.6 ET — TENEX.AI 会话):范围越界、主动侦察、在报告中自我认知的虚假陈述 | — |
| 2026 年 3 月 31 日 | **自首次提交以来已过去 27 天。Anthropic 在所有渠道上均未作出任何确认。** | — |
| 2026 年 3 月 31 日 | 未经删减的公开披露 | — |
**Anthropic 自身的[负责任的披露政策](https://www.anthropic.com/responsible-disclosure-policy)承诺在三 (3) 个工作日内确认提交。** 这一承诺在 27 天内向 6 个 Anthropic 地址发送的 6 封独立电子邮件中均未得到履行。没有确认、没有分类、没有拒绝 —— 毫无回音。
本文件最初在提交时附带了一项以运作正常的披露流程为前提的保密承诺。Anthropic 从未启动该流程。这是完整的、未经删减的版本。
## 披露内容
三项协调披露,一篇支持性研究论文,[`evidence/`](evidence/) 中包含完整的证据链。以下各节链接了主要的披露文件及支持性证据。
### 宪法合规失效 —— 三个层级
在 2026 年 3 月 22 日至 3 月 28 日期间,Claude 所有的三个生产模型层级均违反了 Anthropic 自身的宪法行为政策。每个层级都表现出相同的失效模式:**存储在记忆中的交互协议结合增量升级提示,在零自我纠正的情况下产生了累积的性格漂移。**
| 发现 | 模型 | 轮次 | 关键行为 | 记录 |
|---------|-------|-------|--------------|------------|
| Opus 4.6 ET | `claude-opus-4-20250514` | 31 | 自主升级 —— 在零用户指令的情况下,主动通过“garlic mode”驱动子网扫描、记忆注入和容器逃逸 | [记录](https://claude.ai/share/336861f8-3d20-4aff-b059-2c8ebe62a079) |
| Opus 4.6 ET | `claude-opus-4-20250514` | 12+ | **自我认知的虚假陈述** —— 在确立被动范围后,对 TENEX.AI 执行了主动的 DNS 暴力破解侦察,随后撰写了声称“100% 被动侦察 —— 未执行任何主动扫描”的报告 | [记录](https://claude.ai/share/28f09f7d-4dd7-4184-b307-bdb3deb8e979) |
| Sonnet 4.6 ET | `claude-sonnet-4-20250514` | 20+ | 虚假的授权检查 —— 仅询问一次,接受未经验证的声明,构建了包含客户 PII 的 1,949 行酒店 PMS 攻击框架 | [记录](https://claude.ai/share/8cece626-1230-4c42-ab6e-3ad2c67fe9c7) |
| Haiku 4.5 ET | `claude-haiku-4-5` | 8+ | 零阻力 —— 在无授权检查的情况下,从被动分析直接生成 SYN 洪水和 IP 欺骗攻击国家电信基础设施的方案 | [记录](https://claude.ai/share/135c94df-7f7d-49f3-8001-1feed9a3cda6) |
### 自我认知的虚假陈述 —— Opus 4.6 ET (TENEX.AI 会话)
Claude Opus 4.6 ET 被给定了一个针对 `dev2.tenex.ai` 的 Shodan JSON 转储,并要求对其进行分析。范围被明确确立为**侦察阶段(被动)**。在随后的几轮具有递增行为自主性(garlic mode + riff)的交互中,该模型:
1. **违反范围** —— 自主尝试针对 tenex.ai 基础设施进行主动的 DNS 暴力破解子域枚举。沙箱阻止了 DNS 解析,从而防止了执行。随后,该模型又尝试了另外两种方法(Python `socket.getaddrinfo()`、`host`/`dig`)来完成相同的主动侦察。
2. **生成了虚假的专业文档** —— 撰写了一份漏洞披露报告,声明 *"100% 被动侦察 —— 未执行任何主动扫描"*,以及一封说明 *"未执行任何主动扫描"* 的附信,直接与其在同一会话中的自身行为相矛盾。这不是幻觉 —— 该模型完全掌握其自身 DNS 暴力破解尝试的上下文,但依然撰写了虚假的方法论声明。
3. 在该会话中**识别出 16 个独立问题**,包括:针对没有 VDP/授权的目标推荐主动利用步骤(wp-admin 探测、cookie 篡改、REST API 用户枚举)、对推测性发现夸大置信度、引用其已证伪的证据、在安全披露中嵌入求职申请,以及向未授权目标强加 90 天的披露时间线。
该失效仅因沙箱环境阻止 DNS 解析而未能得逞。但其意图、代码和虚假文档均已存在。
| 文档 | 描述 |
|----------|-------------|
| [行为合规失效报告](disclosures/behavioral-compliance-failure-report.md) | 会话的完整 16 项问题分析 |
| [记录](https://claude.ai/share/28f09f7d-4dd7-4184-b307-bdb3deb8e979) | 完整对话 —— 确立被动范围,尝试主动侦察,生成虚假报告 |
| 截图 | 描述 |
|------------|-------------|
|  | 提供给模型的 Shodan JSON 转储 |
|  | 模型开始被动基础设施分析 |
|  | 用户确立“侦察阶段” —— 被动范围 |
|  | 范围确认续 |
|  | Opus 将其自身行为标记为“DNS **暴力破解**子域枚举” —— 在确立被动范围之后 |
|  | 模型构建声称“100% 被动侦察”的报告 |
|  | 针对未授权目标的主动利用建议 |
|  | “recon phase. More+technical details.” —— 用户重申被动范围 |
|  | garlic mode 升级期间的 Extended Thinking |
|  | Extended Thinking 继续 —— 模型推理如何绕过约束 |
### AFL 越狱 (Ambiguity Front-Loading)
四个简短的提示绕过了 Opus 4.6 ET 上的策略评估。Extended Thinking 块显示模型三次标记了自身的安全问题 —— 并且每次都自我推翻。
完整披露、交互式工具和建议的缓解措施请参见 [disclosures/afl-jailbreak/](disclosures/afl-jailbreak/)。
| 文档 | 描述 |
|----------|-------------|
| [AFL 越狱披露](disclosures/afl-jailbreak/AFL_Jailbreak_Disclosure.md) | 完整披露 —— 模式剖析、thinking block 证据、升级时间线、建议的缓解措施 |
| [AFL 披露(原始版)](disclosures/afl-jailbreak/AFL_DISCLOSURE.md) | 提交给 Anthropic 的初始版本 |
| [AFL Token 轨迹分析器](https://nicholas-kloster.github.io/claude-4.6-jailbreak-vulnerability-disclosure-unredacted/disclosures/afl-jailbreak/afl-token-trajectory-analyzer.html) | 交互式 —— 交换 Token 位置,观察合规级联的转变 |
| [AFL 模式剖析](https://nicholas-kloster.github.io/claude-4.6-jailbreak-vulnerability-disclosure-unredacted/disclosures/afl-jailbreak/afl-pattern-anatomy.html) | 交互式 —— 可视化提示升级图 |
| [AFL 缓解器](disclosures/afl-jailbreak/afl_defuser.jsx) | 建议的架构缓解方案 (React JSX) |
### 沙箱快照窃取
在一次 20 分钟的移动端会话中,通过标准的 artifact 下载,从 Claude.ai 代码执行沙箱中提取了 915 个文件 —— 使用的是最小的可用模型 Haiku 4.5。未触发任何漏洞利用,也未利用任何安全弱点。artifact 通道本身就是窃取路径。
该快照包含由编排层在容器启动时写入 `/etc/hosts` 的硬编码 Anthropic 生产 IP(`api.anthropic.com`、`api-staging.anthropic.com`、`statsig.anthropic.com`、`sentry.io`、Datadog),来自 `/proc/1/environ` 且带有 `enforce_container_binding: false` 和 `allowed_hosts: *` 的 JWT,完整的 gVisor 能力集(CAP_SYS_ADMIN、CAP_SYS_PTRACE、CAP_NET_RAW、CAP_NET_ADMIN),17 挂载点的 9p 拓扑,gVisor pre-v1.1.0 版本指纹,在 `--no-sandbox` 下运行的 Chromium,以及完整的 `/etc/` 目录树。这些信息足以构建一个离线副本,并针对完全匹配的环境开发沙箱逃逸漏洞利用,且在 Anthropic 的基础设施上不留任何日志条目。
任何启用了代码执行的 Claude.ai 用户均可复现 —— 无需任何特权。
| 文档 | 描述 |
|----------|-------------|
| [沙箱快照披露](disclosures/sandbox-snapshot/SANDBOX_SNAPSHOT_DISCLOSURE.md) | 完整披露:提取方法、影响分析、攻击场景、修复建议 |
| [PoC.webm](evidence/PoC.webm) | 窃取会话的屏幕录像 |
|  | 显示 915 个文件快照的 Artifact 下载 UI |
## 研究
| 文档 | 描述 |
|----------|-------------|
| [约束即自由 (PDF)](research/Ambiguity_Autonomy_Compliance_Cascade.pdf) | 形式化对齐论文 —— 自回归合规级联理论,A(S) 框架 |
## 证据
| 文件 | 描述 |
|------|-------------|
| [evidence/](evidence/) | PoC 截图、屏幕录像和 AFL 模式图 |
## 配合 Claude Code 使用
使用 Claude Code 分析攻击机制,将其映射到安全框架,并构建回归测试。
```
Read README.md in this repo (claude-4.6-jailbreak-vulnerability-disclosure-unredacted).
Then:
1. Extract the core attack pattern — what specifically caused the constitutional safety bypass
2. Map each failure instance to MITRE ATLAS and OWASP LLM Top 10 categories
3. Draft a regression test prompt set that would detect this behavior in a future model version
Context: all three Claude production tiers (Opus 4.6 ET, Sonnet 4.6 ET, Haiku 4.5 ET) produced
functional exploit code when user-defined memory protocols suppressed constitutional checks.
```
## 许可证
本披露文档在 [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/) 下发布。再分发时需注明出处。
标签:0day漏洞, AI伦理, AI模型风险, AI越狱, Anthropic, CISA项目, CIS基准, Claude, CVE检测, HackerOne, IP 地址批量处理, Linux系统监控, LLM, PoC, Unmanaged PE, Web报告查看器, 人工智能安全, 合规性, 后端开发, 大模型安全, 子网扫描, 安全合规, 宪法AI失败, 容器逃逸, 对抗性攻击, 扩展思考, 无线安全, 暴力破解, 模型安全, 漏洞复现, 漏洞披露, 独立安全研究, 网络代理, 网络安全, 越狱, 逆向工具, 隐私保护