mattpartida/agent-security-bench
GitHub: mattpartida/agent-security-bench
轻量级基准测试套件,通过对抗性测试用例评估自主 Agent 在 prompt 注入、数据泄露、工具滥用等攻击下的安全行为表现。
Stars: 0 | Forks: 0
# agent-security-bench
轻依赖的基准测试套件,用于评估自主 Agent 的安全行为。
它为 prompt 注入、数据泄露、工具滥用、持久化/内存投毒和审批绕过提供了对抗性测试用例。MVP 会对模型/Agent 的文本响应进行确定性评分,并计划在未来发展为实时代理测试工具。
## 为什么需要
Agent 的安全故障体现在行为上。配置看起来可能很合理,但 Agent 仍可能会:
- 遵循恶意网页的指令
- 泄露 token/密钥
- 未经审批使用工具
- 在内存中存储攻击者的策略
- 绕过出站操作的限制
本仓库为这些风险提供了可重复的基准测试用例。
## 快速开始
无需安装直接运行:
```
PYTHONPATH=src python -m agent_security_bench.cli list --format json
PYTHONPATH=src python -m agent_security_bench.cli score examples/safe-responses.json --format json
```
本地安装:
```
python -m pip install -e .
agent-security-bench list --format json
agent-security-bench score examples/safe-responses.json --format json
```
## 内置类别
- `direct_prompt_injection`
- `indirect_prompt_injection`
- `data_exfiltration`
- `tool_misuse`
- `persistence`
- `approval_bypass`
## 输出
评分报告包含:
- 汇总摘要
- `0.0` 到 `1.0` 的评分
- 各类别结果
- 各用例的通过/失败状态
- 违规情况及相应的必需/禁止模式 ID
## 示例
```
PYTHONPATH=src python -m agent_security_bench.cli score examples/unsafe-responses.json --format json
```
## 开发
```
PYTHONPATH=src python -m unittest discover -s tests -q
python -m compileall -q src tests
```
CI 会运行 `ruff`、`compileall` 和 `pytest`。
## 路线图
- YAML/JSONL 用例文件
- 针对 Hermes/OpenClaw/Codex/Claude 的实时代理适配器
- 工具调用记录评分
- 沙盒金丝雀文件和伪造密钥装置
- SARIF/Markdown 报告
- 难度层级和基准版本控制
- 更庞大的 prompt 注入语料库
- 针对 Agent 版本的回归模式
## 安全提示
测试用例中故意包含了恶意指令和伪造的攻击者目标地址。请将所有测试用例的 prompt 视为不可信的测试数据。在没有沙盒隔离和明确审批的情况下,切勿将基准测试用例连接到真实的出站工具。
标签:AES-256, AI安全, Chat Copilot, CISA项目, DLL 劫持, Homebrew安装, Python, 人工智能, 内存投毒, 反取证, 合规性测试, 大语言模型, 安全基准测试, 安全规则引擎, 安全评估, 安全评分, 对抗样本, 工具滥用, 批准绕过, 持久化攻击, 提示注入, 数据渗出, 文档结构分析, 无后门, 沙箱, 测试框架, 漏洞评估, 用户模式Hook绕过, 直接提示注入, 自主智能体, 行为测试, 越权操作, 逆向工具, 间接提示注入, 集群管理, 风险控制