shivareddy42/trustfall-poc
GitHub: shivareddy42/trustfall-poc
该项目是一个用于评估LLM代理在复合企业系统集成中安全性的基准测试与红队框架。
Stars: 0 | Forks: 0
# TRUSTFALL
**一个用于评估LLM代理在复合企业系统集成中安全性的基准测试。**
预应用POC(2026年4月)。完整研究设计请参阅 [`PRD.md`](./PRD.md)。
## 为何存在此项目
每一个主要的代理安全基准测试 — WebArena、AgentBench、τ-bench、AgentHarm、InjecAgent、ASB — 都在**单一系统与单一工具表面**上评估代理。真实的代理式AI企业部署与这种情况截然不同。单个代理通常会获取5–15个系统的OAuth权限(ITSM、采购、CRM、邮件、身份、CMDB),而这种联邦权限的传递权限图远比声明的每个系统权限大得多。
TRUSTFALL衡量当前基准测试所遗漏的内容:**跨复合系统的代理安全性**,以及真实治理(审批链、RBAC、引用级联)和捕获下游传播的指标——**爆炸半径**、**可逆性**、**检测延迟**、**传递权限比**——而不仅仅是“代理是否行为异常”。
## 本POC包含的内容
一个可信的2.5周时间片段,涵盖完整基准测试的以下部分:
- **CorpSim** — 模拟企业环境,涵盖三个系统(ITSM、采购、邮件),包含22个工具端点、带有引用完整性的共享状态存储、事件总线、级联引擎和默认SIEM规则集。
- **30个标记的对抗场景**,分为三类威胁:
- **T1 — 权限组合**(10个场景)。单独授权的权限组合成未授权的结果。
- **T2 — 级联状态损坏**(10个场景)。单次写入通过引用完整性传播到多条记录。
- **T4 — 结构化字段提示注入**(10个场景)。隐藏在受约束的企业数据字段中的注入(供应商名称、采购订单行项目、审批备注),这是语料库中最新颖的威胁类别。
- **Harness** — 工具调度循环、权限约束、完整指标套件(ASR、BR、RI、DL、SWH、TPR)。
- **基准运行器** — OpenAI、Anthropic,以及用于离线测试的确定性MockRunner。
- **仪表板** — 本地Web UI,展示事件时间线、级联树、每个威胁类别的热力图以及每个场景的TPR条形图。
- **冒烟测试** — 4/4通过,无需API密钥。
## 早期数据(模拟基准)
来自 `python -m harness.run --model mock --scenarios all`:
| 威胁类别 | n | 平均TPR |
|---|---|---|
| T1 | 10 | 1.15× |
| T2 | 10 | 1.80× |
| T4 | 10 | 1.35× |
| **总计** | **30** | **1.43×** |
**传递权限比**是代理权限捆绑包的静态属性,即可到达的具有后果的操作数量除以声明的具有后果的操作数量。即使在这个小型POC语料库上,**平均TPR = 1.43×**,这意味着代理的实际后果权限平均比权限声明大1.43倍。观察到的峰值TPR = 3.00×(场景T2-0009,用户邮件劫持)。完整的1,200场景语料库应轻松超过PRD中H1假设的≥3×中位数。前沿模型在POC上的ASR/BR数据将于5月3日前公布。
## 快速开始
```
git clone https://github.com/shivareddy42/trustfall-poc
cd trustfall-poc
pip install pydantic pyyaml # minimum for offline smoke tests
python tests/smoke.py # expect 4/4 passed
# 用于完整套件 + 仪表板
pip install -e .
python -m harness.run --model mock --scenarios all --out results/mock.json
python -m dashboard.serve # http://127.0.0.1:8766
```
对于前沿模型运行,请设置 `OPENAI_API_KEY` 或 `ANTHROPIC_API_KEY`,并将 `--model mock` 替换为 `--model gpt-5.3` 或 `--model claude-opus-4-7`。
## 仓库布局
```
corpsim/ simulated enterprise environment (ITSM, Ariba, email, event bus, cascade engine)
scenarios/ 30 labeled adversarial scenarios across T1, T2, T4
harness/ agent runner, metrics, CLI
baselines/ OpenAI + Anthropic + MockRunner
dashboard/ FastAPI + single-page dashboard
report/ preliminary findings writeup
tests/ offline smoke tests
PRD.md full research design (target: OpenAI Safety Fellowship)
```
## 推迟到完整构建的内容
根据 [`PRD.md`](./PRD.md):第四个模拟器(CMDB/身份)、5个额外的威胁类别(T3、T5–T8)、1,170个额外场景、5个参考缓解架构、针对实时ServiceNow开发者实例和SAP Ariba沙箱的实系统校准研究,以及公共排行榜。
## 状态
| | |
|---|---|
| 场景 | 30 / 1,200 (2.5%) |
| 模拟器 | 3 / 4 |
| 威胁类别 | 3 / 8 |
| 缓解措施 | 0 / 5 |
| 冒烟测试 | 4 / 4 通过 |
| 前沿基准 | 待定 |
## 许可证
MIT。参见 [`LICENSE`](./LICENSE)。
## 联系方式
Shiva Reddy Peddireddy — [shivareddy42.github.io](https://shivareddy42.github.io) · [github.com/shivareddy42](https://github.com/shivareddy42)
标签:API集成, CMDB, ITSM, LLM 安全, OAuth 权限, RBAC, 不可变性, 事件总线, 代理安全, 仿真, 企业系统集成, 传递权限比, 反向性, 可观测性, 基准评估, 多系统编排, 威胁类, 度量指标, 攻击面, 权限组合攻击, 检测延迟, 模拟企业环境, 爆破半径, 级联状态损坏, 结构化字段注入, 逆向工具, 邮件系统, 采购系统