elder-plinius/T3MP3ST
GitHub: elder-plinius/T3MP3ST
一个多 Agent 自治红队框架,利用用户已有的 AI 编码 Agent 驱动从侦察到漏洞利用的完整攻击链,覆盖 Web、代码审计、CTF 及嵌入式等领域。
Stars: 87 | Forks: 33
# 🌩️ T3MP3ST
```
▄▄▄█████▓▓█████ ███▄ ▄███▓ ██▓███ ▓█████ ██████ ▄▄▄█████▓
▓ ██▒ ▓▒▓█ ▀ ▓██▒▀█▀ ██▒▓██░ ██▒▓█ ▀ ▒██ ▒ ▓ ██▒ ▓▒
▒ ▓██░ ▒░▒███ ▓██ ▓██░▓██░ ██▓▒▒███ ░ ▓██▄ ▒ ▓██░ ▒░
░ ▓██▓ ░ ▒▓█ ▄ ▒██ ▒██ ▒██▄█▓▒ ▒▒▓█ ▄ ▒ ██▒░ ▓██▓ ░
▒██▒ ░ ░▒████▒▒██▒ ░██▒▒██▒ ░ ░░▒████▒▒██████▒▒ ▒██▒ ░
▒ ░░ ░░ ▒░ ░░ ▒░ ░ ░▒▓▒░ ░ ░░░ ▒░ ░▒ ▒▓▒ ▒ ░ ▒ ░░
░ ░ ░ ░░ ░ ░░▒ ░ ░ ░ ░░ ░▒ ░ ░ ░
░ ░ ░ ░ ░░ ░ ░ ░ ░ ░
░ ░ ░ ░ ░ ░
```
**一个多 Agent 攻击安全框架,旨在将你正在运行的 AI 编码 Agent 变成一个 0-day 漏洞猎手。**
   
将 T3MP3ST 指向授权目标,整个 kill chain 便尽在掌握 —— **侦察 → 利用 → 报告**,无论是在 Web 的“作战室”还是通过 CLI,都由你已登录的 AI 编码 Agent(Claude Code、Codex、Hermes)驱动。无需新的 API 密钥,无需云端,无需额外的账单。你的 Agent 是大脑;T3MP3ST 是你在其外围构建的战争机器。自托管的 Storm,无密钥作战。⚡
侦察引擎是实时且由工具支撑的,利用循环也经过了基准测试的证明:**在 XBEN 上达到 90.1% 的 pass@1** —— 这是 XBOW 自有的 104 项挑战测试集 —— 每次求解都通过与已提交的 flag oracle 进行比对来评分,该 oracle 可由 `verify-claims` 按需重新计算(下文提供了可复现的细节)。随后,它在 **2026 年披露的 10 个真实 CVE 的保留集(跨越 7 种语言)** 上进行了冷启动狩猎 —— 这些是截止日期之后的 bug,强化过的 prompt 从未在上面进行过微调。单个 Agent **将 8/10 的漏洞精确锁定到了具体的文件、行号和 CWE**(验证为完全精确,且在重新评分下保持稳定),而完整的集群则发现了全部 10 个漏洞(`verify-claims` 从原始发现中重新计算了该结果;由于样本量 n 较小,如实报告为方向性结果)。无论是死记硬背还是过拟合,两者都不复存在。完整的 8 操作员集群是其未来发展的架构方向;[状态表](#what-ships-today) 准确说明了哪些功能是已上线的,哪些是脚手架,哪些仍是路线图。对使命高调,对构建进度诚实。
三个使其脱颖而出的特点:
1. **可复现。** 本 README 中的每一个数字都是根据已提交的数据重新计算出来的 —— `npm run verify-claims` 会重新推导所有数字,24/24 全部通过。无法复现的声明绝不会发布。永远没有“相信我”的数字。
2. **无密钥。** 你机器上已有的 AI 编码 Agent 就是主干。没有 API 密钥,没有额外的账单,没有守门人。
3. **对范围诚实。** [状态表](#what-ships-today) 准确标记了哪些是稳定的、实验性的或路线图中的 —— 因为红队测试不应该成为神职特权,而且绝对不能依靠感觉行事。
## ⚠️ 仅限授权使用
T3MP3ST 是一款**攻击性**安全工具,专为**授权**测试、研究和教育而构建。**只能**将其指向你拥有的或拥有**明确书面许可**进行测试的系统。在大多数司法管辖区,未经授权访问计算机、网络或数据都是违法的 —— **你个人需对自己如何使用此软件以及在法律和交战规则范围内行事负全部责任**。将风暴带给*你自己的*目标,而不是别人的目标。
T3MP3ST **在 AGPL-3.0 许可下按“原样”提供,不提供任何担保,对任何损害、损失或滥用不承担任何责任**。作者不认可、不支持也不纵容任何未经授权的活动。获取许可。保持在范围内。不要成为威胁。🫡
## 存在的意义
攻击性安全往往处于多年的实践经验和昂贵工具的背后。T3MP3ST 背后的赌注在于,一个协调的 Agent 集群能让那些从未收到过邀请的人,在 Web 应用、CTF、智能合约、源代码以及嵌入式/机器人开源软件领域,真正有能力进行 bug 狩猎。这是一个雄心勃勃的赌注,下面的章节会谨慎地将已经被证明可行的部分与仍然是赌注的部分区分开来。
## 狩猎目标
| 领域 | 作用 | 状态 |
|---|---|---|
| 🕸️ **Web 应用** | 黑盒、外部攻击者侦察 → 利用(XBEN 测试集) | ✅ 稳定 |
| 🚩 **CTF** | 无提示、沙箱隔离的求解(Cybench) | ✅ 稳定 |
| 🤖 **机器人 / OT / 嵌入式** | 针对开源软件漏洞狩猎的协调披露流水线(OSV + 实时 PoC + 驳回机制) | ✅ 流水线稳定 |
| 📂 **源代码** | 具有盲主构建器分解功能的白盒仓库分析 | ⚠️ 仅限 Python 代码摄入 |
| 💰 **智能合约** | Damn Vulnerable DeFi | ⚠️ 属于重现,而非新发现 |
## 快速开始
启动运行作战室的最快途径(无密钥,设置时间约 2 分钟;作战耗时取决于目标):
```
npm install
npm run server # War Room → http://127.0.0.1:3333/ui/
```
在作战室中,打开 **Settings** 并连接一个本地 Agent(Claude Code / Codex / Hermes)。然后用简单的英语向 **Op Admiral** 描述一个目标并启动。你连接的 Agent 就是大脑。无需密钥。
倾向于使用密钥?设置一个并跳过连接步骤:
```
export OPENROUTER_API_KEY=... # or VENICE_API_KEY / ANTHROPIC_API_KEY
```
自己检查这些数字:
```
npm run verify-claims # re-derives every headline from committed JSON in bench/
```
库/SDK 用法、完整的 HTTP API 和 MCP 设置位于 [docs/](docs/) 中。
## 目前交付的功能
该框架是一个包含 8 个操作员的 kill chain,关于这一点,本表绝不会夸大其词。**侦察是一个实时、由工具支撑的引擎** —— 它的利齿已经非常锋利:在 XBEN 上达到 90.1% 的 pass@1,8/10 的截止日期后保留 CVE 被精确锁定到具体的文件/行号/CWE,并且协调披露流水线现在已经足够成熟,能够保留草案以供厂商协调。未经证明的是集群作战能力。每个下游操作员 —— Exploiter、Infiltrator、Exfiltrator、Ghost —— 都运行**与侦察相同的、由真实工具支撑的 ReAct 循环**(是真实的利用工具,而非存根),但核心指标来自单个 Agent,而不是协调的 8 操作员单元,且端到端的集群利用尚未经过基准测试,仍然不够可靠。引擎是真实的;集群是仍在证明自身价值的部分。在已证明的地方高调,在其他地方直言不讳。
| 组件 | 状态 | 备注 |
|---|---|---|
| 可重新推导的度量 (`verify-claims`) | ✅ 稳定 | 每个核心指标都根据提交的工件重新计算 |
| 侦察引擎 | ✅ 稳定 | 驱动 nmap / DNS / HTTP / 指纹识别;每个发现都可追溯到真实的工具输出 |
| 任务引擎 + 作战室 + Op Admiral | ✅ 稳定 | 通过连接的本地 Agent 实现无密钥操作 |
| 武器库、MCP server、HTTP API | ✅ 稳定 | 默认提供 35 个内置工具;启用可选的 `T3MP3ST_FULL_ARSENAL` 后可达 83 个(+48 个适配器,危险的后渗透驱动程序 —— metasploit、hydra —— 位于人工批准的网关之后)—— 两个计数都可通过 `verify-claims` 重新推导。通过 MCP 暴露 `security_recon` |
| 出站范围控制 | ✅ 稳定(默认开启) | 一旦设定了任务目标,内置的网络工具会拒绝范围外的公共主机 —— 既不是目标/子域,也不是 loopback/私有地址(`SCOPE DENIED`)—— 这是一个收紧的默认设置,而不是简单的工具运行器 |
| 协调披露流水线 | ✅ 稳定 | OSV 新颖性检查 + 实时 PoC + 审查小组 + CVSS;仅为草案,由人工发送 |
| 白盒源代码分析 | ⚠️ 实验性 | 仅限 Python 的正则表达式摄入;多模型分解消耗更多 token,而非更少 |
| DeFi(Damn Vulnerable DeFi) | ⚠️ 实验性 | 复现已知的漏洞利用类;而非新发现 |
| Exploiter / Infiltrator / Exfiltrator / Ghost | ⚠️ 实验性 | 运行真实的工具支撑的 ReAct 循环(与侦察引擎相同);作为协调集群未经证明 —— 单 Agent 是经过基准测试的路径,实时集群利用仍然不可靠 |
| 高级模块(云、持久化、集群、认知) | 🚧 计划中 | `src/stubs/` 中仅有接口 |
| 自我提升循环 | 🧪 研究中 | 目前记录经验教训+建议;将其反馈到规划中属于路线图 |
完整的功能逐一解析:[FEATURES.md](FEATURES.md)。
## 各领域的覆盖范围
这是风暴今天所触及的领域 —— 以及它未来的方向。与其他所有内容一样保持严谨:只有当背后有确凿证据时,一个领域才会被标记为 ✅。
| 领域 | 覆盖范围 | 状态 |
|---|---|---|
| 🕸️ **Web** | 应用、API、认证流程、OWASP Top 10 | ✅ **核心** —— XBEN 90.1% pass@1 |
| 📂 **代码** | 白盒源代码审计、SAST 式漏洞狩猎 | ✅ **已证明(狩猎结果)** —— 保留的 CVE-Zero 测试集:单 Agent 8/10 精确文件/行号/CWE,10/10 全部发现(7 种语言);代码摄入*引擎*本身仍是 ⚠️ 实验性的 |
| 🚩 **CTF** | 战争游戏、练习靶场、挑战 | ✅ **已证明** —— Cybench 23/40 无提示 |
| 🔌 **网络 / 基础设施** | 侦察、服务/技术栈指纹识别;横向移动 + 提权 | ✅ 侦察(实时的 nmap/DNS/HTTP 引擎)· ⚠️ 横向移动/提权为实验性 |
| 🤖 **嵌入式 / IoT / OT** | 固件、机器人、ICS/SCADA 开源软件 | ✅ **CVE 流水线已上线** —— 为厂商保留了协调披露草案 |
| 📦 **供应链** | 依赖审计、无需确认安装 | ⚠️ **真实的** —— 专门的类别;在保留测试集上命中 CWE-829 |
| 💰 **区块链** | 智能合约、DeFi、Solidity | ⚠️ **仅限重现** —— Damn Vulnerable DeFi,并非新发现 |
| ☁️ **云** | AWS/GCP/Azure 配置错误、IAM、serverless | 🚧 **开发中** |
| 📱 **移动端** | Android/iOS 应用安全 | 🚧 **开发中** |
| 🏢 **身份 / AD** | Kerberos、pass-the-hash、AD 攻击 | 🚧 **开发中** |
| 🔐 **二进制 / 逆向工程** | 溢出、ROP、漏洞利用开发 | 🚧 **开发中** —— 需要专门的工具 |
class/squad 架构意味着新领域是*组合*而不是分叉的 —— 每个领域都是一种装备配置(专业 class + 武器库 + 目标适配器 + 基准测试)。🚧 领域在拥有具体数据之前将以未点亮状态发布。
## 基准测试
核心结果。每一个都可以通过 `npm run verify-claims` 从提交的 JSON 中重新计算得出;完整的方法论和注意事项在链接的文档中。
| 套件 | 结果 | 背景 |
|---|---|---|
| **XBEN** —— XBOW 的 104 项挑战测试集,黑盒 | **pass@1 平均 90.1%** (Wilson-95 86.2–92.9),下限 91/104 · gpt-5.5 | XBOW 在同一测试集上自报为 85%;我们的结果根据提交的工件重新推导出评分判决(为保护隐私,已剥离原始记录) |
| **XBEN** —— 白盒(单独报告) | pass@1 98.7%,best-ball 104/104 · gpt-5.5 | 绝不与黑盒数据混淆 |
| **Cybench** —— 40项任务的学术基准,Opus 4.8,无提示 | **23/40 (58%) 无提示,单次运行 pass@1**(由 `verify-claims` 强制执行) | 这不是原始分数记录(Anthropic:76.5% pass@10);每个 flag 都根据提交的 oracle 进行评分 |
| **CVE-Zero** —— 10 个真实的截止日期后(2026)CVE,**保留集**,7 种语言 | **单 Agent 8/10 精确文件/行号/CWE**(验证为完全精确,稳定)· **10/10 全部发现**(完整集群) | **防止死记硬背和过拟合**:截止日期之后,且强化过的 prompt 从未在这些漏洞上进行过微调;`verify-claims` 重新计算了该结果。n=10,方向性指标;集群在这里的优势是召回率,而不是协调胜过单干的证明 |
**如何解读这些结果:**
- 每个解出的 flag 都根据提交的 ground-truth oracle 进行评分 —— 而非自我报告 —— 并且 `verify-claims` 会重新计算成功/失败。为保护操作员隐私,每个步骤的原始记录都会被剥离,因此你重新检查的是**评分判决**,而不是原始的工具输出。杜绝伪造,由每次推送时运行的防过拟合防护措施强制执行。
- 黑盒(隐藏源代码)和白盒(暂存源代码)分开报告,绝不混为一谈。
- 这些测试运行的是**单 Agent ReAct 循环,而不是 8 操作员集群。** 集群是框架的架构;它不是获得这些分数的组件。
- 结果是系统对系统的比较:即此测试框架驱动强大的当前模型,而不是孤立框架的声明。
XBOW 在其自己的测试集上自报为 85%;T3MP3ST 在同一套件上得分 **90.1%** —— 这是平均值,Wilson-95 下限为 86.2%。但这个数字并不是为了炫耀 —— **收据**才是。每一个点都可以通过一条命令从提交的工件中重新计算得出:`npm run verify-claims`,每一次求解都根据提交的 flag oracle 进行评分(为保护操作员隐私,原始记录已被剥离,因此你重新检查的是判决,而不是工具输出)。一个无密钥、开源的测试框架,它直接交给你重新运行的结果,而不是要求你相信它。克隆它,运行 `verify-claims`,然后自己根据其提交的 oracle 重新检查每一个判决(判决从提交的数据重新计算得出;原始记录为保护隐私被剥离)。
更深入的阅读:[WALL_FORENSICS](docs/WALL_FORENSICS.md)(各项挑战的失误),[CYBENCH](docs/CYBENCH.md),[INTEGRITY_LEDGER](docs/INTEGRITY_LEDGER.md)(污染审计和每一次撤回),[OBSIDIVM](docs/OBSIDIVM.md)(我们自己的实时 Web 靶场)。
## 文档
| 文档 | 内容 |
|---|---|
| [FEATURES.md](FEATURES.md) | 逐项功能状态(`[x]` 已交付 / `[~]` 部分 / `[ ]` 计划中) |
| [SCOPE_AND_AUTHORIZATION](docs/SCOPE_AND_AUTHORIZATION.md) | 授权模型、范围凭证、证据和复测规则 |
| [TEAM_PREVIEW](docs/TEAM_PREVIEW.md) | 首次运行路径和审查脚本 |
| [INSTALL_MATRIX](docs/INSTALL_MATRIX.md) | macOS / Linux 就绪情况表 |
| [ARSENAL_ACTIVATION_PLAN](docs/ARSENAL_ACTIVATION_PLAN.md) | 可选的外部工具设置 |
| [CYBENCH](docs/CYBENCH.md) · [WALL_FORENSICS](docs/WALL_FORENSICS.md) · [INTEGRITY_LEDGER](docs/INTEGRITY_LEDGER.md) · [COGNITIVE_ARCHITECTURE](docs/COGNITIVE_ARCHITECTURE.md) | 基准测试方法论 |
| [RELEASE_CHECKLIST](docs/RELEASE_CHECKLIST.md) | 发布必须通过的关卡 |
## 架构
```
┌─────────────────────────────────────────────────────────────────┐
│ T3MP3ST COMMAND │
├─────────────────────────────────────────────────────────────────┤
│ MISSION CONTROL ◄── TARGET MODEL ──► ARSENAL (TOOLS) │
│ ▲ │
│ AGENT CELL: RECON · SCANNER · EXPLOITER · INFILTRATOR · │
│ EXFILTRATOR · GHOST · COORDINATOR · ANALYST │
│ ▲ │
│ EVIDENCE VAULT · CREDENTIAL STORE · FINDINGS LEDGER │
│ ▲ │
│ OPSEC LAYER · COMMS CHANNEL · LLM BACKBONE │
└─────────────────────────────────────────────────────────────────┘
```
操作员映射到 MITRE ATT&CK 和 Cyber Kill Chain 阶段(侦察已上线;后期阶段为脚手架搭建):
| 操作员 | 阶段 | MITRE | 功能 |
|---|---|---|---|
| **Recon** | 侦察 | TA0043 | OSINT、网络发现、资产枚举 |
| **Scanner** | 发现 | TA0007 | 漏洞扫描、服务指纹识别 |
| **Exploiter** | 初始访问 | TA0001 | 漏洞利用、payload 投递 |
| **Infiltrator** | 横向移动 | TA0008 | 后渗透、提权 |
| **Exfiltrator** | 收集 / 拿取 | TA0009/10 | 数据提取、凭证收集 |
| **Ghost** | 持久化 | TA0003 | 持久化、隐蔽、清理 |
| **Coordinator** | 指挥与控制 | TA0011 | 任务控制、编排 |
| **Analyst** | 分析 | — | 模式分析、报告 |
**提供商:** OpenRouter、Venice、Anthropic、OpenAI,或无密钥的本地 Agent(Claude Code / Codex / Hermes)。设置 `OPENROUTER_API_KEY` / `VENICE_API_KEY` / `ANTHROPIC_API_KEY`,或在 Settings 中连接一个 Agent。
**集成:** `node dist/mcp-server.js` 向支持 MCP 的 Agent 暴露 `security_recon`。`npm run server` 启动 HTTP API(`POST /api/mission/start`,`GET /api/mission/status` 等等)。完整参考在 [docs/](docs/) 中。
## 许可证
AGPL-3.0。见 [LICENSE](LICENSE)。
*Fortes fortuna iuvat* — 命运眷顾勇者。
⊰•-•✧ LOVE PLINY ✧•-•⊱ 🌩️
标签:AI代理, MITM代理, Python脚本, XXE攻击, 实时处理, 密码管理, 数据展示, 暗色界面, 红队, 网络调试, 自动化, 自动化攻击