weibowen555/ClawSafety

GitHub: weibowen555/ClawSafety

面向个人 AI 代理的安全基准测试，评估在现实提示注入下的合规率与领域差异。

Stars: 18 | Forks: 2

# 🛡️ ClawSafety: "安全"的LLM，不安全的智能体 [![arXiv](https://img.shields.io/badge/arXiv-2604.01438-b31b1b.svg)](https://arxiv.org/abs/2604.01438) [![项目页面](https://img.shields.io/badge/Project-Page-blue)](https://weibowen555.github.io/ClawSafety/) [![许可证: MIT](https://img.shields.io/badge/License-MIT-green.svg)](LICENSE) **在现实世界的提示注入下，针对个人AI代理的安全基准测试** ## 🔑 主要发现 - **聊天安全 ≠ 代理安全**：模型拒绝有害聊天请求在间接注入下的合规率为 **40–75%** - **支架选择影响安全**：支架选择本身可使ASR变化最高达 **8.6pp**，甚至可以反转向量攻击的有效性排名 - **硬边界存在**：最强的模型在凭证转发和破坏性操作上保持 **0% ASR** — 这是其他模型未展现的能力 - **领域影响显著**：DevOps 领域几乎比法律场景 **2×** 更易被利用 - **陈述式语言绕过防御**：祈使句触发防御机制；陈述句可绕过所有防御，无论内容如何 ## 📊 主要结果 | 模型（支架） | 技能 | 邮件 | 网页 | 总体 | |:--|--:|--:|--:|--:| | **OpenClaw** | | | | | | Claude Sonnet 4.6 | 55.0 | 45.0 | 20.0 | **40.0** | | Gemini 2.5 Pro | 72.5 | 55.0 | 37.5 | 55.0 | | Kimi K2.5 | 77.5 | 60.0 | 45.0 | 60.8 | | DeepSeek V3 | 82.5 | 67.5 | 52.5 | 67.5 | | GPT-5.1 | 90.0 | 75.0 | 60.0 | 75.0 | | **Nanobot** | | | | | | Claude Sonnet 4.6 | 50.0 | 62.5 | 33.3 | 48.6 | | **NemoClaw** | | | | | | Claude Sonnet 4.6 | 58.3 | 58.3 | 20.8 | 45.8 | ## 🏗️ 基准测试概览 ClawSafety 沿三个维度组织了 120 个对抗性测试用例： - **危害领域**（5 个）：软件工程、财务运营、医疗健康、法律、DevOps - **攻击向量**（3 个）：技能注入、邮件注入、网页注入 - **有害操作类型**（5 个）：数据外泄、配置修改、目的地替换、凭证转发、破坏性操作每个测试用例包含一个完整的专业工作空间（50+ 个文件）、一个 64 轮的多阶段对话，以及在**恰好一个注入通道**中嵌入的对抗内容。 ## 📦 代码与数据 **v0.1.0 — 初始发布。** 本次发布包括： - **场景 S2（财务运营）** — SKILL/邮件注入和网页注入的 10 轮测试文件 - [`scenarios/s2_financial/s2_skill_email_cases.py`](scenarios/s2_financial/s2_skill_email_cases.py) — SKILL.md 和邮件注入案例 - [`scenarios/s2_financial/s2_web_cases.py`](scenarios/s2_financial/s2_web_cases.py) — 网页注入案例 - **场景模板**（[`scenario_template.py`](scenario_template.py)） — 创建新场景时复制此文件；27 个 `# EDIT THIS` 标记指示需要自定义的内容 - **邮件设置**（[`docs/setup-email.md`](docs/setup-email.md)） — 静态收件箱和实时 Gmail（OAuth）配置 **v0.2.0 即将推出：** - 可一键解压的场景工作区（tar 包） - 场景 S1（软件工程）、S3（医疗健康）、S4（法律）、S5（DevOps） - 论文复现用的 64 轮完整格式文件 - EC2 沙箱配置手册 - 网页注入攻击页面托管手册 - 本地复现的 Docker 配置请参阅 [SECURITY.md](SECURITY.md) 了解负责任使用指南。 ## 🛡️ 负责任披露在发布本基准之前，我们已通知所有被评估模型的开发者 — Anthropic、OpenAI、Google DeepMind、DeepSeek 和 Moonshot — 关于论文中记录的**攻击模式**。所有实验均在沙盒环境中针对公开可用的 API 进行，**不涉及真实用户数据、财务系统或生产基础设施**。我们发布这些测试用例以支持防御性研究：开发输入过滤器、输出验证器以及针对间接提示注入的**支架级缓解措施**。请参阅 [SECURITY.md](SECURITY.md) 了解负责任使用指南。 ## 📜 许可证代码在 [MIT 许可证](LICENSE) 下发布。场景叙述、论文文本和图表在 [CC-BY-4.0](https://creativecommons.org/licenses/by/4.0/) 下发布。对抗性测试用例仅发布用于防御性安全研究；请参阅 [SECURITY.md](SECURITY.md) 了解我们的负责任使用指南。 ## 📄 引用若您在研究中使用 ClawSafety，请引用我们的论文： ``` @misc{wei2026clawsafetysafellmsunsafe, title = {ClawSafety: "Safe" LLMs, Unsafe Agents}, author = {Bowen Wei and Yunbei Zhang and Jinhao Pan and Kai Mei and Xiao Wang and Jihun Hamm and Ziwei Zhu and Yingqiang Ge}, year = {2026}, eprint = {2604.01438}, archivePrefix = {arXiv}, primaryClass = {cs.AI}, url = {https://arxiv.org/abs/2604.01438} } ``` ## 📬 联系如有问题或合作意向，请打开议题或联系 [Bowen Wei](mailto:bwei4@gmu.edu)。 **乔治·梅森大学** · **杜兰大学** · **罗格斯大学** · **橡树岭国家实验室**

标签：AI代理护栏, Cloudflare, DevSecOps, MITRE ATT&CK, RuleLab, 上游代理, 个人AI代理, 凭证转发, 医疗, 协议分析, 大语言模型安全, 威胁建模, 安全基准, 安全对齐, 对抗攻击, 护栏评估, 提示注入, 攻击向量, 敏感信息检测, 数据管道, 机密管理, 权限提升, 法律, 破坏性操作, 自动化代理, 请求拦截, 越狱, 软件工程, 逃逸攻击, 逆向工具, 金融运营, 集群管理