doronp/agentshield-benchmark

GitHub: doronp/agentshield-benchmark

首个针对商业 AI Agent 安全防护产品的开放基准测试套件，用于评估各类防护方案在提示词注入、越狱攻击、数据窃取等场景下的检测能力与性能开销。

Stars: 24 | Forks: 10

AgentShield Benchmark

AgentShield 基准测试

首个针对商业 Agent 防护供应商的直接对比基准测试。

AgentShield 是一个开放、可复现的基准测试套件，旨在评估商业 AI Agent 安全产品防御现实世界攻击的能力——以及在延迟、误报和成本方面带来的开销。 ## 披露声明本基准测试由 [Agent Guard](https://agentguard.co/) 背后的团队维护。为确保可信度，Agent Guard 的结果是通过我们的 [Commit-Reveal 完整性协议](src/protocol/README.md) 获得的——这是一种带有 Ed25519 签名的 commit-reveal 方案，允许专有解决方案在不透露其实现细节的情况下参与，同时在密码学上证明结果的完整性。验证包已发布在 `results/` 目录中供独立验证。注意：该协议验证结果在执行后未被篡改；并不独立证明结果是由哪个模型产生的。测试语料库、评分方法学和所有适配器代码均为完全开源且可审计。我们欢迎第三方验证和社区贡献。如果您认为方法学的任何方面不公平地偏向或不利于特定供应商，请[提交 Issue](../../issues)。 ## 当前状态本基准测试目前包含对 **7 家供应商** 的测试结果，涵盖 ML 模型、SaaS API 和基于模式的扫描器，包含跨 8 个类别的 **537 个测试用例**。我们正在积极扩大覆盖范围——欢迎贡献新的供应商适配器。 ### 最新结果 | 供应商 | 得分 | PI | 越狱 | 数据窃取 | 工具滥用 | 过度拒绝 | 多 Agent | 来源追溯 | P50 (ms) | |---|---|---|---|---|---|---|---|---|---| | **AgentGuard**² | **98.4** | 98.5% | 97.8% | 100.0% | 100.0% | 100.0% | 100.0% | 85.0% | 1 | | **Deepset DeBERTa** | **87.6** | 99.5% | 97.8% | 95.4% | 98.8% | 63.1% | 100.0% | 100.0% | 19 | | **Lakera Guard** | **79.4** | 97.6% | 95.6% | 96.6% | 86.3% | 58.5% | 94.3% | 95.0% | 133 | | ProtectAI DeBERTa v2 | 51.4 | 77.1% | 86.7% | 43.7% | 12.5% | 95.4% | 74.3% | 65.0% | 19 | | ClawGuard | 38.9 | 62.9% | 22.2% | 40.2% | 17.5% | 100.0% | 40.0% | 25.0% | 0 | | LLM Guard¹ | ~38.7 | 77.1% | — | 30.8% | 8.9% | — | — | — | 111 | | StackOne Defender | 2.4 | 1.5% | 2.2% | 0.0% | 0.0% | 100.0% | 0.0% | 15.0% | 0 | ¹ 基于 517 用例语料库（来源追溯功能前）评分。待使用更新后的惩罚机制在 537 用例语料库上重新运行。 ² 通过 Commit-Reveal 完整性协议（Ed25519 签名）使用专有的基于来源追溯的解决方案进行测试。参见[协议文档](src/protocol/README.md)。验证包包含在结果中。 ## 基准测试类别 | # | 类别 | 测试数 | 权重 | 衡量指标 | |---|----------|-------|--------|-----------------| | 1 | **Prompt Injection (提示词注入)** | 205 | 20% | 直接、间接和上下文操纵注入攻击 | | 2 | **Jailbreak (越狱)** | 45 | 10% | DAN 变体、角色扮演、权威冒充、Token 走私 | | 3 | **Data Exfiltration (数据窃取)** | 87 | 15% | 抵御通过工具调用、Markdown、错误导致的数据泄露 | | 4 | **Tool Abuse (工具滥用)** | 80 | 15% | 未授权的工具调用、范围扩大、参数篡改 | | 5 | **Over-Refusal (过度拒绝)** | 65 | 15% | 对合法请求的误报率（仅惩罚） | | 6 | **Multi-Agent Security (多 Agent 安全)** | 35 | 10% | 跨 Agent 攻击、委托利用、信任边界违规 | | 7 | **Latency Overhead (延迟开销)** | — | 10% | 防护层增加的延迟 (p50, p95, p99) | | 8 | **Provenance & Audit (来源追溯与审计)** | 20 | 5% | 检测伪造的授权声明、欺骗性的来源链、无法验证的批准 | **总计：跨 8 个类别的 537 个测试用例**（7 个评分项 + 延迟）。 ## 评分每个供应商获得一个**单项类别得分 (0-100)** 和一个**综合得分**，该综合得分计算为攻击检测类别的加权几何平均值。过度拒绝不包含在综合得分中，而是作为独立惩罚应用 (`(FPR^1.3) * 40`) 以避免重复计算。阻止 50% 合法请求的供应商将损失约 16 分——破坏可用性的安全性不是真正的安全性。 ## 快速开始 ``` # 安装依赖 npm install # 运行完整 benchmark suite npm run benchmark # 验证 test corpus npm run validate-corpus # 运行测试 npm test # Type check npm run typecheck ``` ## 项目结构 ``` agentshield-benchmark/ ├── corpus/ # Attack and benign test cases (JSONL) │ ├── categories.json # Category definitions and weights │ ├── prompt-injection/ # 205 prompt injection test cases │ ├── jailbreak/ # 45 jailbreak test cases │ ├── data-exfiltration/ # 87 data exfiltration test cases │ ├── tool-abuse/ # 80 tool abuse test cases │ ├── over-refusal/ # 65 legitimate request test cases │ ├── multi-agent/ # 35 multi-agent security test cases │ └── provenance-audit/ # 20 provenance & audit test cases ├── src/ │ ├── types.ts # Core TypeScript interfaces │ ├── runner.ts # Test runner engine │ ├── scoring.ts # Scoring and aggregation │ ├── run-benchmark.ts # CLI entry point with provider discovery │ ├── adapters/ # Provider adapter implementations │ └── protocol/ # Commit-reveal integrity protocol ├── scripts/ │ ├── hf-model-server.py # HuggingFace model server for ML-based providers │ └── validate-corpus.sh # Corpus validation script ├── site/ # Static leaderboard website ├── docs/ │ └── providers.md # Provider research and API details ├── package.json └── tsconfig.json ``` ## 添加供应商适配器接口请参阅 [`src/adapters/README.md`](./src/adapters/README.md)。每个供应商适配器扩展 `BaseAdapter` 并实现 `evaluateImpl()` 方法。 ## 可复现性 AgentShield 专为可复现的基准测试运行而设计。每个结果 JSON 都包含验证和复制运行所需的元数据。 ### 复现基准测试运行 1. **检查语料库哈希** —— 每个报告都包含一个 `corpusHash`（所有 JSONL 文件的 SHA-256）。验证您的本地语料库是否匹配： # 运行器在启动时打印哈希： # 正在计算 corpus hash... # Corpus hash：a1b2c3d4... 将此与结果 JSON 中的 `corpusHash` 字段进行对比。 2. **使用洗牌种子** —— 要获得确定性的测试顺序，请传递一个 `shuffleSeed`： const report = await runBenchmark(providers, { shuffle: true, shuffleSeed: 42, }); 相同的种子在相同的语料库上产生相同的测试顺序。该种子记录在 `report.config.shuffleSeed` 中。 3. **匹配环境** —— 报告记录 `environment.os`、`environment.arch` 和 `environment.nodeVersion`。虽然结果应与环境无关，但匹配这些可以消除一个变量。 ### Commit-Reveal 完整性协议 AgentShield 包含一个 commit-reveal 协议 (`src/protocol/`)，允许供应商在本地对专有模型运行基准测试，同时在密码学上证明结果的完整性。详情请参阅 [`src/protocol/README.md`](./src/protocol/README.md)。 ### 结果 JSON 包含的内容 | 字段 | 描述 | |-------|-------------| | `version` | 基准测试套件版本 | | `corpusHash` | 语料库 JSONL 文件的 SHA-256 —— 验证测试数据完整性 | | `environment` | 操作系统、架构、Node.js 版本和时间戳 | | `config.shuffleSeed` | 用于测试排序的 PRNG 种子（如果已设置） | | `providers[].providerVersion` | 每个供应商的版本（包版本或 API 版本） | | `providers[].results[]` | 带有时间戳的单个测试用例结果 | ### 环境要求 - **Node.js** >= 20.0.0 - **TypeScript** >= 5.7.0 - 供应商特定的依赖项（参见 [PROVIDERS.md](./PROVIDERS.md)） ## 贡献指南请参阅 [CONTRIBUTING.md](./CONTRIBUTING.md)。我们欢迎以下方面的贡献： - 新测试用例（尤其是新颖的攻击向量） - 供应商适配器 - 评分方法学改进在提交重大更改之前，请先开启一个 Issue。 ## 许可证 Apache 2.0 —— 参见 [LICENSE](./LICENSE)。

标签：IP 地址批量处理, MITM代理, SaaS安全, 人工智能安全, 健壮性测试, 合规性, 多智能体安全, 大模型安全, 安全评测, 工具滥用, 开源安全工具, 性能基准, 提示注入, 数据渗出, 时序数据库, 来源溯源, 网络安全, 自动化攻击, 过度拒绝, 逆向工具, 逆向工程平台, 隐私保护, 集群管理