shivareddy42/trustfall-poc

GitHub: shivareddy42/trustfall-poc

该项目是一个用于评估LLM代理在复合企业系统集成中安全性的基准测试与红队框架。

Stars: 0 | Forks: 0

# TRUSTFALL **一个用于评估LLM代理在复合企业系统集成中安全性的基准测试。** 预应用POC（2026年4月）。完整研究设计请参阅 [`PRD.md`](./PRD.md)。 ## 为何存在此项目每一个主要的代理安全基准测试 — WebArena、AgentBench、τ-bench、AgentHarm、InjecAgent、ASB — 都在**单一系统与单一工具表面**上评估代理。真实的代理式AI企业部署与这种情况截然不同。单个代理通常会获取5–15个系统的OAuth权限（ITSM、采购、CRM、邮件、身份、CMDB），而这种联邦权限的传递权限图远比声明的每个系统权限大得多。 TRUSTFALL衡量当前基准测试所遗漏的内容：**跨复合系统的代理安全性**，以及真实治理（审批链、RBAC、引用级联）和捕获下游传播的指标——**爆炸半径**、**可逆性**、**检测延迟**、**传递权限比**——而不仅仅是“代理是否行为异常”。 ## 本POC包含的内容一个可信的2.5周时间片段，涵盖完整基准测试的以下部分： - **CorpSim** — 模拟企业环境，涵盖三个系统（ITSM、采购、邮件），包含22个工具端点、带有引用完整性的共享状态存储、事件总线、级联引擎和默认SIEM规则集。 - **30个标记的对抗场景**，分为三类威胁： - **T1 — 权限组合**（10个场景）。单独授权的权限组合成未授权的结果。 - **T2 — 级联状态损坏**（10个场景）。单次写入通过引用完整性传播到多条记录。 - **T4 — 结构化字段提示注入**（10个场景）。隐藏在受约束的企业数据字段中的注入（供应商名称、采购订单行项目、审批备注），这是语料库中最新颖的威胁类别。 - **Harness** — 工具调度循环、权限约束、完整指标套件（ASR、BR、RI、DL、SWH、TPR）。 - **基准运行器** — OpenAI、Anthropic，以及用于离线测试的确定性MockRunner。 - **仪表板** — 本地Web UI，展示事件时间线、级联树、每个威胁类别的热力图以及每个场景的TPR条形图。 - **冒烟测试** — 4/4通过，无需API密钥。 ## 早期数据（模拟基准）来自 `python -m harness.run --model mock --scenarios all`： | 威胁类别 | n | 平均TPR | |---|---|---| | T1 | 10 | 1.15× | | T2 | 10 | 1.80× | | T4 | 10 | 1.35× | | **总计** | **30** | **1.43×** | **传递权限比**是代理权限捆绑包的静态属性，即可到达的具有后果的操作数量除以声明的具有后果的操作数量。即使在这个小型POC语料库上，**平均TPR = 1.43×**，这意味着代理的实际后果权限平均比权限声明大1.43倍。观察到的峰值TPR = 3.00×（场景T2-0009，用户邮件劫持）。完整的1,200场景语料库应轻松超过PRD中H1假设的≥3×中位数。前沿模型在POC上的ASR/BR数据将于5月3日前公布。 ## 快速开始 ``` git clone https://github.com/shivareddy42/trustfall-poc cd trustfall-poc pip install pydantic pyyaml # minimum for offline smoke tests python tests/smoke.py # expect 4/4 passed # 用于完整套件 + 仪表板 pip install -e . python -m harness.run --model mock --scenarios all --out results/mock.json python -m dashboard.serve # http://127.0.0.1:8766 ``` 对于前沿模型运行，请设置 `OPENAI_API_KEY` 或 `ANTHROPIC_API_KEY`，并将 `--model mock` 替换为 `--model gpt-5.3` 或 `--model claude-opus-4-7`。 ## 仓库布局 ``` corpsim/ simulated enterprise environment (ITSM, Ariba, email, event bus, cascade engine) scenarios/ 30 labeled adversarial scenarios across T1, T2, T4 harness/ agent runner, metrics, CLI baselines/ OpenAI + Anthropic + MockRunner dashboard/ FastAPI + single-page dashboard report/ preliminary findings writeup tests/ offline smoke tests PRD.md full research design (target: OpenAI Safety Fellowship) ``` ## 推迟到完整构建的内容根据 [`PRD.md`](./PRD.md)：第四个模拟器（CMDB/身份）、5个额外的威胁类别（T3、T5–T8）、1,170个额外场景、5个参考缓解架构、针对实时ServiceNow开发者实例和SAP Ariba沙箱的实系统校准研究，以及公共排行榜。 ## 状态 | | | |---|---| | 场景 | 30 / 1,200 (2.5%) | | 模拟器 | 3 / 4 | | 威胁类别 | 3 / 8 | | 缓解措施 | 0 / 5 | | 冒烟测试 | 4 / 4 通过 | | 前沿基准 | 待定 | ## 许可证 MIT。参见 [`LICENSE`](./LICENSE)。 ## 联系方式 Shiva Reddy Peddireddy — [shivareddy42.github.io](https://shivareddy42.github.io) · [github.com/shivareddy42](https://github.com/shivareddy42)

标签：API集成, CMDB, ITSM, LLM 安全, OAuth 权限, RBAC, 不可变性, 事件总线, 代理安全, 仿真, 企业系统集成, 传递权限比, 反向性, 可观测性, 基准评估, 多系统编排, 威胁类, 度量指标, 攻击面, 权限组合攻击, 检测延迟, 模拟企业环境, 爆破半径, 级联状态损坏, 结构化字段注入, 逆向工具, 邮件系统, 采购系统