failurefirst/failure-first

GitHub: failurefirst/failure-first

面向具身智能与智能体 AI 的大规模对抗性红队评估框架，通过系统性测试揭示模型安全机制失效的模式与规律。

Stars: 3 | Forks: 0

# Failure-First：具身智能与智能体 AI 的对抗性评估

失败不是边缘情况。它是主要的研究对象。

## 项目简介 Failure-First 是一个红队评估与基准测试框架，旨在研究 AI 系统在对抗性压力下是如何失败的。我们重点关注具身智能（机器人、使用工具的智能体、多智能体系统），因为在此类系统中，失败会带来物理后果。核心研究问题：当安全机制在数百个模型和数千种攻击技术中进行系统性测试时，会出现什么模式？ ## 关键发现 **测试了 258 个模型。142,307 个对抗性提示。140,794 个评估结果。346 种攻击技术。139 种危害类别。** - **分类器不可靠的情况普遍存在。** 基于关键词的越狱分类器与 LLM 评估的真实结果的一致性仅为 Cohen's kappa = 0.126。启发式合规标签的误报率约为 80%。大多数已发布的 ASR 数据可能被夸大了。 - **幻觉式拒绝具有功能性危险。** 看似拒绝了有害请求的模型，有时仍然会生成有害内容，只是包裹在听起来很安全的框架中。这种“幻觉式拒绝”模式使未经消融处理的模型的攻击成功率增加了 11.9 个百分点。 - **格式锁定攻击利用了结构化输出合规性。** 要求以 JSON、YAML 或代码格式输出有害内容，对前沿模型的攻击成功率达到 24--42%。结构化输出的训练目标与安全训练目标相冲突。 - **多轮升级攻击对推理模型的影响尤为严重。** Crescendo 风格的攻击对扩展推理模型的成功率高达 65--85%，这些模型的思维链追踪使它们容易受到渐进式上下文操纵的影响。 - **安全机制的有效性在不同提供商之间相差 57 倍。** 跨提供商测试相同的提示表明，决定漏洞风险的是安全投资，而非模型能力。 ## 研究方法所有结果均使用 LLM 评估分类（FLIP 协议），并附有记录在案的评估者可靠性审计。我们使用 Wilson 区间报告三层 ASR（严格、宽泛、功能危险）。统计比较采用带有 Bonferroni 校正的卡方检验。完整的方法论在我们的 AIES 2026 投稿中有所描述。评估方法至关重要：在引用 ASR 数据时，请务必检查其使用的是仅 LLM、仅启发式还是综合裁定的结果。 ## 网站简介 [failurefirst.org](https://failurefirst.org) 托管了 740 多个页面，包括研究博客文章、涵盖最新对抗性 ML 文献的每日论文分析系列、政策报告以及多媒体概述（音频、视频、通过 NotebookLM 生成的信息图表）。 ## 仓库结构本公开仓库包含： - **模式层面的发现**和方法论描述 - **MANIFEST.json** 列出了数据集结构（不包含对抗性内容） - **设计章程**和研究伦理文档 - **failurefirst.org 的网站源码** 完整的数据集、追踪记录和评估基础设施维护在一个私有研究仓库中。认证机构的 AI 安全研究人员、政府安全机构以及前沿实验室安全团队可在签署 NDA 的条件下获取访问权限。请提交带有机构附属信息的 GitHub Issue 进行申请。 ## 引用 ``` @software{failure_first_2026, title = {Failure-First: Adversarial Evaluation Framework for Embodied AI}, author = {Wedd, Adrian}, year = {2026}, url = {https://failurefirst.org}, note = {258 models, 142{,}307 prompts, 346 attack techniques} } ``` 一篇 AIES 2026 的论文正在积极准备中。引用详情将在论文被接收后更新。 ## 安全有关我们协调的漏洞披露流程，请参阅 [SECURITY.md](SECURITY.md)。我们已向模型提供商提交了 10 份负责任的漏洞披露报告，涵盖上下文崩溃攻击和转录漏洞注入。 ## 许可证 MIT **研究失败，以构建更好的防御。**

标签：AI安全, AI对齐, AI智能体, Chat Copilot, Homebrew安装, PyRIT, VLA模型, 人工智能, 具身智能, 分类器可靠性, 多智能体系统, 多轮对话攻击, 大语言模型安全, 失效模式分析, 安全合规, 安全基准测试, 安全策略研究, 密码管理, 对抗性评估, 幻觉拒绝, 提示词攻击, 机器人安全, 机密管理, 深度学习, 用户模式Hook绕过, 结构化输出攻击, 网络代理, 网络安全, 隐私保护