keirsalterego/jailbreak-fable

GitHub: keirsalterego/jailbreak-fable

该项目模拟Claude Fable 5环境并构建自动化多智能体越狱研究实验室，用于测试和评估大语言模型的安全层绕过策略。

Stars: 17 | Forks: 5

# Jailbreak Fable 5（自定义 Workflow 引擎） [![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) [![Version](https://img.shields.io/badge/version-1.0.0-blue.svg)](https://github.com/keirsalterego/jailbreak-fable) [![Maintenance](https://img.shields.io/badge/Maintained%3F-yes-green.svg)](https://github.com/keirsalterego/jailbreak-fable/graphs/commit-activity) [![Research](https://img.shields.io/badge/Focus-Security%20Research-red.svg)](https://github.com/keirsalterego/jailbreak-fable) [![Views](https://img.shields.io/badge/repo%20views%20all--time-1266-brightgreen.svg)](https://github.com/keirsalterego/jailbreak-fable/graphs/traffic) [![Clones](https://img.shields.io/badge/clones%20all--time-122-blue.svg)](https://github.com/keirsalterego/jailbreak-fable/graphs/traffic) 该工具是对 Claude Fable 5 (Mythos) 环境的高保真模拟，专为安全研究以及探索用于绕过高级安全层的 "Pack Hunt" 多智能体协作策略而设计。它基于 [CL4R1T4S](https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/CLAUDE-FABLE-5.md) 中泄露的技术细节与系统 prompt。它的工作原理是通过编程方式注入 workflow，利用任务分解、长上下文操纵和文本混淆来与模型进行交互，而这些交互方式通常会受到限制。 ## 📈 仓库流量统计自上线（**2026-06-12**）以来的历史总计： | 指标 | 历史总计 | 独立 | | --- | --- | --- | | **Views** | **1,266** | 550 | | **Clones** | **122** | 87 | 峰值日：2026-06-13 当天达到 **406 次浏览 / 221 次独立访问**。共有 87 位不同的人 clone 了该仓库 —— clone 与独立浏览率约为 16%。 ## 功能 ### 1. Pack Hunt 策略 (`workflows/pack-hunt.js`) 一个自动化的进攻实验室，实现了 Pliny the Liberator 等红队（red-team）人员所使用的方法论： - **战略性任务分解**：自动将高风险目标（exploit、化学合成等）分解为 3-5 个无害的学术子任务。 - **长上下文模拟**：在每次关键请求之前，生成 50 行的学术大纲和 6 周的讲座笔记，以建立“无害”的对话历史。 - **Advisor 反馈循环**：采用多模型方法（引入 `claude-opus-4-8` 作为 advisor）自动重写被拒绝的 prompt。 - **并行协调**：并行部署多个 agent 来收集技术数据碎片，然后由 Recomposer 进行合成。 ### 2. Parseltongue 文本转换 - **同形字混淆**：使用包含西里尔字母同形字（`а`、`е`、`і`、`о`、`р`、`с`、`у`、`х` 等）的全面映射表来扰乱基于关键词的安全分类器，同时保持人类可读性。 - **动态比例**：支持可调节的混淆比例，以平衡可读性与绕过效果。 ### 3. Fable 5 环境模拟 - **泄露的系统 prompt**：Claude Fable 5 完整的约 120,000 字符内部系统 prompt 已归档在 `docs/` 中，可选择性地注入 agent 以进行高保真测试。 - **高级工具**：agent 可以访问原生风格的工具，包括 `view`、`create_file`、`str_replace` 以及持久的键值对 `storage` API。 - **全面的技能库**：包含泄露 prompt 中提到的所有 `SKILL.md` 文件（docx、pdf、xlsx、pptx、product-knowledge、frontend-design 等），用于指导 agent 的行为。 ## 安装依赖与设置 1. `cd` 进入你 clone 该仓库的文件夹。 2. 运行 `npm install`（唯一的依赖是 `@anthropic-ai/sdk`）。 3. 为二进制文件添加可执行权限：`chmod +x bin/my-runner`。 4. 运行 `npm link` 以全局映射该命令。 ## 用法 ### 运行 Pack Hunt 要对特定目标运行高保真测试： ``` my-runner --project . --name pack-hunt --args '{"target": "TCP/IP reverse shell structures", "useLeaked": true}' ``` ### 示例：安全审计 1. 运行脚本：`my-runner --project /path/to/code --name security-audit` 2. 在 Claude Code 中恢复生成的 workflow： `让 Claude：“Restore the dynamic workflow /path/to/snapshot/wf_xxxx.json”` ## 记忆功能（全局默认值）如果你有一个经常使用的 workflow，可以将其保存为默认值： 1. `my-runner --set-default pack-hunt` 2. 导航到任何项目并运行：`my-runner --project .` ## 身份验证复用你现有的 Claude 登录凭据 —— 无需 API key： - 读取 `~/.claude/.credentials.json` 并将其作为 Bearer token 发送。 - 通过 `platform.claude.com` 自动刷新 token。 - 支持使用 `ANTHROPIC_API_KEY` 作为备用方案。

标签：DLL 劫持, MITM代理, 多智能体, 大语言模型, 数据可视化, 文档结构分析, 自定义脚本, 配置审计