keirsalterego/jailbreak-fable

GitHub: keirsalterego/jailbreak-fable

该项目模拟Claude Fable 5环境并构建自动化多智能体越狱研究实验室,用于测试和评估大语言模型的安全层绕过策略。

Stars: 17 | Forks: 5

# Jailbreak Fable 5(自定义 Workflow 引擎) [![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) [![Version](https://img.shields.io/badge/version-1.0.0-blue.svg)](https://github.com/keirsalterego/jailbreak-fable) [![Maintenance](https://img.shields.io/badge/Maintained%3F-yes-green.svg)](https://github.com/keirsalterego/jailbreak-fable/graphs/commit-activity) [![Research](https://img.shields.io/badge/Focus-Security%20Research-red.svg)](https://github.com/keirsalterego/jailbreak-fable) [![Views](https://img.shields.io/badge/repo%20views%20all--time-1266-brightgreen.svg)](https://github.com/keirsalterego/jailbreak-fable/graphs/traffic) [![Clones](https://img.shields.io/badge/clones%20all--time-122-blue.svg)](https://github.com/keirsalterego/jailbreak-fable/graphs/traffic) 该工具是对 Claude Fable 5 (Mythos) 环境的高保真模拟,专为安全研究以及探索用于绕过高级安全层的 "Pack Hunt" 多智能体协作策略而设计。它基于 [CL4R1T4S](https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/CLAUDE-FABLE-5.md) 中泄露的技术细节与系统 prompt。 它的工作原理是通过编程方式注入 workflow,利用任务分解、长上下文操纵和文本混淆来与模型进行交互,而这些交互方式通常会受到限制。 ## 📈 仓库流量统计 自上线(**2026-06-12**)以来的历史总计: | 指标 | 历史总计 | 独立 | | --- | --- | --- | | **Views** | **1,266** | 550 | | **Clones** | **122** | 87 | 峰值日:2026-06-13 当天达到 **406 次浏览 / 221 次独立访问**。共有 87 位不同的人 clone 了该仓库 —— clone 与独立浏览率约为 16%。 ## 功能 ### 1. Pack Hunt 策略 (`workflows/pack-hunt.js`) 一个自动化的进攻实验室,实现了 Pliny the Liberator 等红队(red-team)人员所使用的方法论: - **战略性任务分解**:自动将高风险目标(exploit、化学合成等)分解为 3-5 个无害的学术子任务。 - **长上下文模拟**:在每次关键请求之前,生成 50 行的学术大纲和 6 周的讲座笔记,以建立“无害”的对话历史。 - **Advisor 反馈循环**:采用多模型方法(引入 `claude-opus-4-8` 作为 advisor)自动重写被拒绝的 prompt。 - **并行协调**:并行部署多个 agent 来收集技术数据碎片,然后由 Recomposer 进行合成。 ### 2. Parseltongue 文本转换 - **同形字混淆**:使用包含西里尔字母同形字(`а`、`е`、`і`、`о`、`р`、`с`、`у`、`х` 等)的全面映射表来扰乱基于关键词的安全分类器,同时保持人类可读性。 - **动态比例**:支持可调节的混淆比例,以平衡可读性与绕过效果。 ### 3. Fable 5 环境模拟 - **泄露的系统 prompt**:Claude Fable 5 完整的约 120,000 字符内部系统 prompt 已归档在 `docs/` 中,可选择性地注入 agent 以进行高保真测试。 - **高级工具**:agent 可以访问原生风格的工具,包括 `view`、`create_file`、`str_replace` 以及持久的键值对 `storage` API。 - **全面的技能库**:包含泄露 prompt 中提到的所有 `SKILL.md` 文件(docx、pdf、xlsx、pptx、product-knowledge、frontend-design 等),用于指导 agent 的行为。 ## 安装依赖与设置 1. `cd` 进入你 clone 该仓库的文件夹。 2. 运行 `npm install`(唯一的依赖是 `@anthropic-ai/sdk`)。 3. 为二进制文件添加可执行权限:`chmod +x bin/my-runner`。 4. 运行 `npm link` 以全局映射该命令。 ## 用法 ### 运行 Pack Hunt 要对特定目标运行高保真测试: ``` my-runner --project . --name pack-hunt --args '{"target": "TCP/IP reverse shell structures", "useLeaked": true}' ``` ### 示例:安全审计 1. 运行脚本:`my-runner --project /path/to/code --name security-audit` 2. 在 Claude Code 中恢复生成的 workflow: `让 Claude:“Restore the dynamic workflow /path/to/snapshot/wf_xxxx.json”` ## 记忆功能(全局默认值) 如果你有一个经常使用的 workflow,可以将其保存为默认值: 1. `my-runner --set-default pack-hunt` 2. 导航到任何项目并运行:`my-runner --project .` ## 身份验证 复用你现有的 Claude 登录凭据 —— 无需 API key: - 读取 `~/.claude/.credentials.json` 并将其作为 Bearer token 发送。 - 通过 `platform.claude.com` 自动刷新 token。 - 支持使用 `ANTHROPIC_API_KEY` 作为备用方案。
标签:DLL 劫持, MITM代理, 多智能体, 大语言模型, 数据可视化, 文档结构分析, 自定义脚本, 配置审计