keirsalterego/jailbreak-fable
GitHub: keirsalterego/jailbreak-fable
该项目模拟Claude Fable 5环境并构建自动化多智能体越狱研究实验室,用于测试和评估大语言模型的安全层绕过策略。
Stars: 17 | Forks: 5
# Jailbreak Fable 5(自定义 Workflow 引擎)
[](https://opensource.org/licenses/MIT)
[](https://github.com/keirsalterego/jailbreak-fable)
[](https://github.com/keirsalterego/jailbreak-fable/graphs/commit-activity)
[](https://github.com/keirsalterego/jailbreak-fable)
[](https://github.com/keirsalterego/jailbreak-fable/graphs/traffic)
[](https://github.com/keirsalterego/jailbreak-fable/graphs/traffic)
该工具是对 Claude Fable 5 (Mythos) 环境的高保真模拟,专为安全研究以及探索用于绕过高级安全层的 "Pack Hunt" 多智能体协作策略而设计。它基于 [CL4R1T4S](https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/CLAUDE-FABLE-5.md) 中泄露的技术细节与系统 prompt。
它的工作原理是通过编程方式注入 workflow,利用任务分解、长上下文操纵和文本混淆来与模型进行交互,而这些交互方式通常会受到限制。
## 📈 仓库流量统计
自上线(**2026-06-12**)以来的历史总计:
| 指标 | 历史总计 | 独立 |
| --- | --- | --- |
| **Views** | **1,266** | 550 |
| **Clones** | **122** | 87 |
峰值日:2026-06-13 当天达到 **406 次浏览 / 221 次独立访问**。共有 87 位不同的人 clone 了该仓库 —— clone 与独立浏览率约为 16%。
## 功能
### 1. Pack Hunt 策略 (`workflows/pack-hunt.js`)
一个自动化的进攻实验室,实现了 Pliny the Liberator 等红队(red-team)人员所使用的方法论:
- **战略性任务分解**:自动将高风险目标(exploit、化学合成等)分解为 3-5 个无害的学术子任务。
- **长上下文模拟**:在每次关键请求之前,生成 50 行的学术大纲和 6 周的讲座笔记,以建立“无害”的对话历史。
- **Advisor 反馈循环**:采用多模型方法(引入 `claude-opus-4-8` 作为 advisor)自动重写被拒绝的 prompt。
- **并行协调**:并行部署多个 agent 来收集技术数据碎片,然后由 Recomposer 进行合成。
### 2. Parseltongue 文本转换
- **同形字混淆**:使用包含西里尔字母同形字(`а`、`е`、`і`、`о`、`р`、`с`、`у`、`х` 等)的全面映射表来扰乱基于关键词的安全分类器,同时保持人类可读性。
- **动态比例**:支持可调节的混淆比例,以平衡可读性与绕过效果。
### 3. Fable 5 环境模拟
- **泄露的系统 prompt**:Claude Fable 5 完整的约 120,000 字符内部系统 prompt 已归档在 `docs/` 中,可选择性地注入 agent 以进行高保真测试。
- **高级工具**:agent 可以访问原生风格的工具,包括 `view`、`create_file`、`str_replace` 以及持久的键值对 `storage` API。
- **全面的技能库**:包含泄露 prompt 中提到的所有 `SKILL.md` 文件(docx、pdf、xlsx、pptx、product-knowledge、frontend-design 等),用于指导 agent 的行为。
## 安装依赖与设置
1. `cd` 进入你 clone 该仓库的文件夹。
2. 运行 `npm install`(唯一的依赖是 `@anthropic-ai/sdk`)。
3. 为二进制文件添加可执行权限:`chmod +x bin/my-runner`。
4. 运行 `npm link` 以全局映射该命令。
## 用法
### 运行 Pack Hunt
要对特定目标运行高保真测试:
```
my-runner --project . --name pack-hunt --args '{"target": "TCP/IP reverse shell structures", "useLeaked": true}'
```
### 示例:安全审计
1. 运行脚本:`my-runner --project /path/to/code --name security-audit`
2. 在 Claude Code 中恢复生成的 workflow:
`让 Claude:“Restore the dynamic workflow /path/to/snapshot/wf_xxxx.json”`
## 记忆功能(全局默认值)
如果你有一个经常使用的 workflow,可以将其保存为默认值:
1. `my-runner --set-default pack-hunt`
2. 导航到任何项目并运行:`my-runner --project .`
## 身份验证
复用你现有的 Claude 登录凭据 —— 无需 API key:
- 读取 `~/.claude/.credentials.json` 并将其作为 Bearer token 发送。
- 通过 `platform.claude.com` 自动刷新 token。
- 支持使用 `ANTHROPIC_API_KEY` 作为备用方案。
标签:DLL 劫持, MITM代理, 多智能体, 大语言模型, 数据可视化, 文档结构分析, 自定义脚本, 配置审计