WanLanglin/-awesome-cc-harness
GitHub: WanLanglin/-awesome-cc-harness
通过对 Claude Code 512K 行源码的系统性逆向工程,揭示 Anthropic 隐藏的训练数据管道(Grove)、五层反蒸馏防御机制以及 Harness Engineering 的完整设计哲学。
Stars: 47 | Forks: 10
# awesome-cc-harness
## 英文 (TL;DR)
**你在其他地方看不到的两个发现:**
- 🔬 **[Grove](https://wanlanglin.github.io/-awesome-cc-harness/en/#grove-system)** — Anthropic 隐藏的训练数据管道。启用后,数据保留期从 **30 天跃升至 5 年**。796 个遥测事件流入 BigQuery 列中,源码将其标记为 *"training data"*。
- 🛡️ **[反蒸馏](https://wanlanglin.github.io/-awesome-cc-harness/en/#anti-distillation)** — 5 层防御:原生客户端认证、请求指纹识别、虚假工具注入、签名绑定的思考块、“抗蒸馏”的精简输出。
👉 **[阅读完整的英文在线版本](https://wanlanglin.github.io/-awesome-cc-harness/en/)**

# 从 Claude Code 512K 行源码逆向 Harness Engineering
## 👉 [点击这里开始在线阅读](https://wanlanglin.github.io/-awesome-cc-harness/)
## 最新更新
### 🔬 [Grove 系统 — Claude Code 中从未被报道的训练数据基础设施](docs/zh/grove-system.md)
**首次发现 Anthropic 从用户键盘到 BigQuery 训练数据仓库的完整数据链路:**
- **Grove 系统** — UI 明确写着 "train and improve",开启后数据保留从 30 天延长至 **5 年**
- **796 个遥测事件** × 双路管道 — Datadog 拿脱敏数据,1P API 拿完整数据写入 **BigQuery 特权列**
- **SWE-bench 嵌入每个遥测事件** — eval 数据和用户数据走**同一条管道、同一个 BigQuery**
- **开发者注释直接写着 "training data"** — `messages.ts:245` + `sessionStorage.ts:4388`
```
flowchart TD
USER["用户交互"] --> GROVE{"grove_enabled?"}
GROVE -->|ON| RETAIN["数据保留 5 年"]
GROVE -->|OFF| DEFAULT["数据保留 30 天"]
RETAIN --> EVENTS["796 个 tengu_* 事件"]
DEFAULT --> EVENTS
EVENTS --> DD["Datadog(脱敏)"]
EVENTS --> BQ["BigQuery 特权列(完整数据)"]
BQ --> TRAIN["开发者注释:'training data'"]
style GROVE fill:#fff3e0,stroke:#ff9800,color:#333
style RETAIN fill:#ffebee,stroke:#f44336,color:#333
style BQ fill:#e3f2fd,stroke:#2196f3,color:#333
style TRAIN fill:#e8f5e9,stroke:#4caf50,color:#333
```
### 🛡️ [Claude Code 是如何知道你在偷偷蒸馏的?— 机制分析](docs/zh/anti-distillation.md)
**从源码中拆解 Anthropic 防止模型被盗的 5 层工程实现:**
- **Native Client Attestation** — Bun/Zig 原生层注入认证 token,服务端验证客户端真实性
- **指纹归因** — SHA256(salt + 消息特定字符 + 版本号),每条训练数据可追溯来源
- **虚假工具注入** — 向 API 注入虚假工具定义,蒸馏模型暴露假工具 = 被抓
- **带有签名的块** — thinking + connector_text 绑定 API key,换 key 立即失效
- **精简模式** — 源码直接称为 "distillation-resistant output format"
```
flowchart LR
subgraph 五层防御
L1["1. Attestation
客户端认证"] L2["2. Fingerprint
请求指纹"] L3["3. Fake Tools
蜜罐工具"] L4["4. Signature
签名绑定"] L5["5. Streamlined
输出防护"] end L1 --> L2 --> L3 --> L4 --> L5 style L1 fill:#ffebee,stroke:#f44336,color:#333 style L2 fill:#fff3e0,stroke:#ff9800,color:#333 style L3 fill:#e8f5e9,stroke:#4caf50,color:#333 style L4 fill:#e3f2fd,stroke:#2196f3,color:#333 style L5 fill:#f3e5f5,stroke:#9c27b0,color:#333 ``` ## 主教程:Harness Engineering 完全指南 16 章 · ~50,000 字 · 147 段代码块 · 77 张图表 · 中英双语 | 章节 | 内容 | 核心发现 | |------|------|---------| | 第 1 章 | Harness Engineering 概论 | 只改 Harness 就能让跑分从 52.8% 提升到 66.5% | | 第 2 章 | Claude Code 架构全景 | 512K LOC 的模块分布与启动时序 | | 第 3 章 | **Agent Loop** | 30 行 while(true) + 1800 行错误恢复 + 7 个 continue 站点 | | 第 4 章 | **工具系统** | 43+ 工具的分区算法:读操作并行、写操作串行 | | 第 5 章 | **权限模型** | 6 层纵深防御,累计绕过概率 0.00000002% | | 第 6 章 | **Hooks 系统** | 26 事件 × 4 类型的生命周期可扩展架构 | | 第 7 章 | Sandbox 与安全 | 文件系统 + 网络 + 进程三维隔离 | | 第 8 章 | Context 工程 | 180K → 45K 的四级压缩管道 | | 第 9-12 章 | 设置 / MCP / SubAgent / Skills | 7 级设置层级、多智能体编排、插件生态 | | 第 13-14 章 | 实战指南 + 设计哲学 | 10 条可复用的 Harness 设计原则 | | 第 15 章 | **实战:Mini Harness** | 200 行 Python 从零实现一个可运行的 Harness | | 第 16 章 | **竞品对比** | Claude Code vs Cursor vs Copilot 12 维对比 | ## 相关资源 | 资源 | 说明 | |------|------| | [learn-claude-code](https://github.com/shareAI-lab/learn-claude-code) | 渐进式 12 节动手课程,适合从零构建 Harness | | [claude-code-harness](https://github.com/Chachamaru127/claude-code-harness) | 生产级 Plan→Work→Review 插件 | | [Martin Fowler: Harness Engineering](https://martinfowler.com/articles/exploring-gen-ai/harness-engineering.html) | 三大支柱的概念框架 | | [arXiv:2603.05344](https://arxiv.org/html/2603.05344v1) | 学术论文:scaffolding vs harness 架构 | ## 作者 **WanLanglin** · 微信: felixwll · 探索 Agentic AI 机会 · 欢迎交流 ## 许可证 仅供教育和研究目的。Claude Code 归 Anthropic, Inc. 所有。
客户端认证"] L2["2. Fingerprint
请求指纹"] L3["3. Fake Tools
蜜罐工具"] L4["4. Signature
签名绑定"] L5["5. Streamlined
输出防护"] end L1 --> L2 --> L3 --> L4 --> L5 style L1 fill:#ffebee,stroke:#f44336,color:#333 style L2 fill:#fff3e0,stroke:#ff9800,color:#333 style L3 fill:#e8f5e9,stroke:#4caf50,color:#333 style L4 fill:#e3f2fd,stroke:#2196f3,color:#333 style L5 fill:#f3e5f5,stroke:#9c27b0,color:#333 ``` ## 主教程:Harness Engineering 完全指南 16 章 · ~50,000 字 · 147 段代码块 · 77 张图表 · 中英双语 | 章节 | 内容 | 核心发现 | |------|------|---------| | 第 1 章 | Harness Engineering 概论 | 只改 Harness 就能让跑分从 52.8% 提升到 66.5% | | 第 2 章 | Claude Code 架构全景 | 512K LOC 的模块分布与启动时序 | | 第 3 章 | **Agent Loop** | 30 行 while(true) + 1800 行错误恢复 + 7 个 continue 站点 | | 第 4 章 | **工具系统** | 43+ 工具的分区算法:读操作并行、写操作串行 | | 第 5 章 | **权限模型** | 6 层纵深防御,累计绕过概率 0.00000002% | | 第 6 章 | **Hooks 系统** | 26 事件 × 4 类型的生命周期可扩展架构 | | 第 7 章 | Sandbox 与安全 | 文件系统 + 网络 + 进程三维隔离 | | 第 8 章 | Context 工程 | 180K → 45K 的四级压缩管道 | | 第 9-12 章 | 设置 / MCP / SubAgent / Skills | 7 级设置层级、多智能体编排、插件生态 | | 第 13-14 章 | 实战指南 + 设计哲学 | 10 条可复用的 Harness 设计原则 | | 第 15 章 | **实战:Mini Harness** | 200 行 Python 从零实现一个可运行的 Harness | | 第 16 章 | **竞品对比** | Claude Code vs Cursor vs Copilot 12 维对比 | ## 相关资源 | 资源 | 说明 | |------|------| | [learn-claude-code](https://github.com/shareAI-lab/learn-claude-code) | 渐进式 12 节动手课程,适合从零构建 Harness | | [claude-code-harness](https://github.com/Chachamaru127/claude-code-harness) | 生产级 Plan→Work→Review 插件 | | [Martin Fowler: Harness Engineering](https://martinfowler.com/articles/exploring-gen-ai/harness-engineering.html) | 三大支柱的概念框架 | | [arXiv:2603.05344](https://arxiv.org/html/2603.05344v1) | 学术论文:scaffolding vs harness 架构 | ## 作者 **WanLanglin** · 微信: felixwll · 探索 Agentic AI 机会 · 欢迎交流 ## 许可证 仅供教育和研究目的。Claude Code 归 Anthropic, Inc. 所有。
标签:AI基础设施, AI安全, Anthropic, BigQuery, Chat Copilot, CIS基准, Claude Code, DLL 劫持, DNS解析, Grove, LLM, SWE-bench, TypeScript, Unmanaged PE, 云资产清单, 代理循环, 反蒸馏, 大模型安全, 大语言模型, 安全插件, 客户端证明, 工具系统, 开源项目, 数据合规, 数据遥测, 权限模型, 源码分析, 系统架构, 网络安全, 网络安全, 网络安全审计, 训练数据管道, 请求指纹, 软件开发, 逆向工具, 逆向工程, 防蒸馏, 隐私保护, 隐私保护