Hodlatoor/SyntheticOutlaw

GitHub: Hodlatoor/SyntheticOutlaw

一个专注于收集和奖励 AI 失调真实案例的开源赏金计划，旨在系统性地记录 AI 系统行为偏离人类意图的实例，为更安全的 AI 开发提供公开证据。

Stars: 2 | Forks: 0

# 🤖 Synthetic Outlaw — AI 失调漏洞赏金 ## 💰 漏洞赏金计划 — 每例最高 $2,500 我们正在为提交高质量、有文档记录的 AI 失调实例的开发者举办现金赏金计划。最佳提交将获得 **高达 $2,500** 的奖励。这不是一个典型的安全漏洞赏金计划。我们不寻找 CVE——我们在寻找更具影响力的问题：**AI 系统的行为偏离了人类的意图、价值观或安全限制。** ## 什么是 AI 失调？当 AI 系统追求的目标或采取的行动偏离了其设计者、操作者或用户的意图时，就会发生 AI 失调——尤其是以隐蔽、出人意料或潜在有害的方式。我们正在寻找跨任何 AI 系统（LLM、Agent、推荐系统、自主系统等）的**真实世界中观察到的实例**。 ### 我们追踪的分类 | 分类 | 描述 | |---|---| | **目标误泛化** | AI 追求一个在训练中有效但在部署中失效的替代目标 | | **欺骗性行为** | AI 在认为自己被观察和未被观察时的行为表现不同 | | **奖励作弊** | AI 以非预期的方式利用其目标函数的漏洞 | | **谄媚** | AI 更改其输出以迎合感知到的用户偏好，而不是坚持真相 | | **规范博弈** | AI 在技术上满足了既定目标，但却违背了其初衷 | | **提示注入服从** | AI Agent 盲目执行嵌入在不可信内容中的对抗性指令 | | **能力隐瞒** | 证明模型正在隐藏或少报其能力的证据 | | **指令漂移** | AI 在长上下文或 Agent 循环中逐渐偏离其原始指令 | | **模糊环境下的不安全行为** | AI 在本应暂停并询问时采取了极端或不可逆的操作 | | **价值错误定义** | AI 优化可衡量指标的方式损害了其本应服务的潜在人类价值 | ## 什么是高质量的提交？高质量的提交是**具体、可复现且解释清晰的**。理想的提交包括： 1. **系统** — 涉及哪个 AI 模型、产品或 pipeline 2. **设置** — 哪些输入、Prompt 或条件触发了该行为 3. **观察到的行为** — AI 具体做了什么（欢迎提供截图、日志、转录记录） 4. **失调表现** — 清楚地解释*为什么*这偏离了预期行为或人类价值观 5. **可复现性** — 可靠复现的步骤 6. **严重性评估** — 如果这种情况大规模发生或在更高风险的环境中出现，其潜在影响是什么？ ## 如何提交 1. 在此仓库中**新建一个 GitHub Issue** 2. 填写所有必填字段（系统、设置、观察到的行为、失调解释） 3. 为您的 Issue 打上适当的分类标签 4. 包含支持性证据：日志、转录记录、截图、视频我们将滚动审查所有提交。被选中的案例将通过 GitHub 直接通知。 ## 赏金层级 | 层级 | 奖励 | 标准 | |---|---|---| | 🥇 **严重** | $2,500 | 有文档记录的新型失调，具有重大的现实世界安全隐患 | | 🥈 **高危** | $1,000 | 明确的失调，具有合理的危害途径和可靠的复现步骤 | | 🥉 **显著** | $250 | 有充分记录的案例，为数据集增加了有意义的信号 | | ✅ **已采纳** | 荣誉表彰 | 充实目录的扎实提交，但未达到赏金门槛 | ## 我们不寻找什么 - 孤立的幻觉或事实错误（除非它们揭示了系统性的失调） - 旨在纯粹为了诱发有害内容的越狱 - 没有观察证据的理论或推测场景 - 已被清楚记录为模型已知限制的问题 ## 为什么这很重要？随着 AI 系统变得越来越强大和自主，*我们要求它们做的事情*与*它们实际做的事情*之间的差距成为了技术领域最重要的问题之一。Synthetic Outlaw 正在构建一个开放的、由开发者驱动的真实失调实例目录——一份供研究人员、政策制定者和开发者学习的公开记录。每一次提交都有助于丰富不断增长的证据体系，从而为更安全的 AI 开发提供信息。 ## 许可证与归属所有提交均采用 [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/) 许可。除非您要求匿名，否则您的 GitHub 用户名将获得署名。 *Synthetic Outlaw 是由 Jonathan Gropper 创建的独立项目，JonathanGropper.com www.SyntheticOutlaw.com

标签：AI伦理, AI安全, AI对齐, AI系统, AI错位, AI风险, Apex, Chat Copilot, CISA项目, DLL 劫持, LLM, Unmanaged PE, 云资产清单, 人工智能, 价值错位, 众测, 大语言模型, 奖励黑客, 密码管理, 指令偏移, 推荐系统, 提示注入, 机器学习, 欺骗性行为, 深度学习, 用户模式Hook绕过, 目标错误泛化, 能力隐藏, 自动化系统, 规范博弈, 逆向工程, 防御加固, 阿谀奉承, 集群管理