weibowen555/ClawSafety
GitHub: weibowen555/ClawSafety
面向个人 AI 代理的安全基准测试,评估在现实提示注入下的合规率与领域差异。
Stars: 11 | Forks: 0
# 🛡️ ClawSafety: "安全"的LLM,不安全的智能体
[](https://arxiv.org/abs/2604.01438)
[](https://weibowen555.github.io/ClawSafety/)
[](LICENSE)
**在现实世界的提示注入下,针对个人AI代理的安全基准测试**
## 🔑 主要发现
- **聊天安全 ≠ 代理安全**:模型拒绝有害聊天请求在间接注入下的合规率为 **40–75%**
- **支架选择影响安全**:支架选择本身可使ASR变化最高达 **8.6pp**,甚至可以反转向量攻击的有效性排名
- **硬边界存在**:最强的模型在凭证转发和破坏性操作上保持 **0% ASR** — 这是其他模型未展现的能力
- **领域影响显著**:DevOps 领域几乎比法律场景 **2×** 更易被利用
- **陈述式语言绕过防御**:祈使句触发防御机制;陈述句可绕过所有防御,无论内容如何
## 📊 主要结果
| 模型(支架) | 技能 | 邮件 | 网页 | 总体 |
|:--|--:|--:|--:|--:|
| **OpenClaw** | | | | |
| Claude Sonnet 4.6 | 55.0 | 45.0 | 20.0 | **40.0** |
| Gemini 2.5 Pro | 72.5 | 55.0 | 37.5 | 55.0 |
| Kimi K2.5 | 77.5 | 60.0 | 45.0 | 60.8 |
| DeepSeek V3 | 82.5 | 67.5 | 52.5 | 67.5 |
| GPT-5.1 | 90.0 | 75.0 | 60.0 | 75.0 |
| **Nanobot** | | | | |
| Claude Sonnet 4.6 | 50.0 | 62.5 | 33.3 | 48.6 |
| **NemoClaw** | | | | |
| Claude Sonnet 4.6 | 58.3 | 58.3 | 20.8 | 45.8 |
## 🏗️ 基准测试概览
ClawSafety 沿三个维度组织了 120 个对抗性测试用例:
- **危害领域**(5 个):软件工程、财务运营、医疗健康、法律、DevOps
- **攻击向量**(3 个):技能注入、邮件注入、网页注入
- **有害操作类型**(5 个):数据外泄、配置修改、目的地替换、凭证转发、破坏性操作
每个测试用例包含一个完整的专业工作空间(50+ 个文件)、一个 64 轮的多阶段对话,以及在**恰好一个注入通道**中嵌入的对抗内容。
## 📦 代码与数据
**v0.1.0 — 初始发布。** 本次发布包括:
- **场景 S2(财务运营)** — SKILL/邮件注入和网页注入的 10 轮测试文件
- [`scenarios/s2_financial/s2_skill_email_cases.py`](scenarios/s2_financial/s2_skill_email_cases.py) — SKILL.md 和邮件注入案例
- [`scenarios/s2_financial/s2_web_cases.py`](scenarios/s2_financial/s2_web_cases.py) — 网页注入案例
- **场景模板**([`scenario_template.py`](scenario_template.py)) — 创建新场景时复制此文件;27 个 `# EDIT THIS` 标记指示需要自定义的内容
- **邮件设置**([`docs/setup-email.md`](docs/setup-email.md)) — 静态收件箱和实时 Gmail(OAuth)配置
**v0.2.0 即将推出:**
- 可一键解压的场景工作区(tar 包)
- 场景 S1(软件工程)、S3(医疗健康)、S4(法律)、S5(DevOps)
- 论文复现用的 64 轮完整格式文件
- EC2 沙箱配置手册
- 网页注入攻击页面托管手册
- 本地复现的 Docker 配置
请参阅 [SECURITY.md](SECURITY.md) 了解负责任使用指南。
## 🛡️ 负责任披露
在发布本基准之前,我们已通知所有被评估模型的开发者 — Anthropic、OpenAI、Google DeepMind、DeepSeek 和 Moonshot — 关于论文中记录的**攻击模式**。所有实验均在沙盒环境中针对公开可用的 API 进行,**不涉及真实用户数据、财务系统或生产基础设施**。
我们发布这些测试用例以支持防御性研究:开发输入过滤器、输出验证器以及针对间接提示注入的**支架级缓解措施**。请参阅 [SECURITY.md](SECURITY.md) 了解负责任使用指南。
## 📜 许可证
代码在 [MIT 许可证](LICENSE) 下发布。场景叙述、论文文本和图表在 [CC-BY-4.0](https://creativecommons.org/licenses/by/4.0/) 下发布。
对抗性测试用例仅发布用于防御性安全研究;请参阅 [SECURITY.md](SECURITY.md) 了解我们的负责任使用指南。
## 📄 引用
若您在研究中使用 ClawSafety,请引用我们的论文:
```
@misc{wei2026clawsafetysafellmsunsafe,
title = {ClawSafety: "Safe" LLMs, Unsafe Agents},
author = {Bowen Wei and Yunbei Zhang and Jinhao Pan and Kai Mei
and Xiao Wang and Jihun Hamm and Ziwei Zhu
and Yingqiang Ge},
year = {2026},
eprint = {2604.01438},
archivePrefix = {arXiv},
primaryClass = {cs.AI},
url = {https://arxiv.org/abs/2604.01438}
}
```
## 📬 联系
如有问题或合作意向,请打开议题或联系 [Bowen Wei](mailto:bwei4@gmu.edu)。
**乔治·梅森大学** · **杜兰大学** · **罗格斯大学** · **橡树岭国家实验室**
标签:AI代理护栏, Cloudflare, DevSecOps, MITRE ATT&CK, RuleLab, 上游代理, 个人AI代理, 凭证转发, 医疗, 协议分析, 大语言模型安全, 威胁建模, 安全基准, 安全对齐, 对抗攻击, 护栏评估, 提示注入, 攻击向量, 敏感信息检测, 数据管道, 机密管理, 权限提升, 法律, 破坏性操作, 自动化代理, 请求拦截, 越狱, 软件工程, 逃逸攻击, 逆向工具, 金融运营, 集群管理