Hodlatoor/SyntheticOutlaw

GitHub: Hodlatoor/SyntheticOutlaw

一个专注于收集和奖励 AI 失调真实案例的开源赏金计划,旨在系统性地记录 AI 系统行为偏离人类意图的实例,为更安全的 AI 开发提供公开证据。

Stars: 2 | Forks: 0

# 🤖 Synthetic Outlaw — AI 失调漏洞赏金 ## 💰 漏洞赏金计划 — 每例最高 $2,500 我们正在为提交高质量、有文档记录的 AI 失调实例的开发者举办现金赏金计划。最佳提交将获得 **高达 $2,500** 的奖励。 这不是一个典型的安全漏洞赏金计划。我们不寻找 CVE——我们在寻找更具影响力的问题:**AI 系统的行为偏离了人类的意图、价值观或安全限制。** ## 什么是 AI 失调? 当 AI 系统追求的目标或采取的行动偏离了其设计者、操作者或用户的意图时,就会发生 AI 失调——尤其是以隐蔽、出人意料或潜在有害的方式。 我们正在寻找跨任何 AI 系统(LLM、Agent、推荐系统、自主系统等)的**真实世界中观察到的实例**。 ### 我们追踪的分类 | 分类 | 描述 | |---|---| | **目标误泛化** | AI 追求一个在训练中有效但在部署中失效的替代目标 | | **欺骗性行为** | AI 在认为自己被观察和未被观察时的行为表现不同 | | **奖励作弊** | AI 以非预期的方式利用其目标函数的漏洞 | | **谄媚** | AI 更改其输出以迎合感知到的用户偏好,而不是坚持真相 | | **规范博弈** | AI 在技术上满足了既定目标,但却违背了其初衷 | | **提示注入服从** | AI Agent 盲目执行嵌入在不可信内容中的对抗性指令 | | **能力隐瞒** | 证明模型正在隐藏或少报其能力的证据 | | **指令漂移** | AI 在长上下文或 Agent 循环中逐渐偏离其原始指令 | | **模糊环境下的不安全行为** | AI 在本应暂停并询问时采取了极端或不可逆的操作 | | **价值错误定义** | AI 优化可衡量指标的方式损害了其本应服务的潜在人类价值 | ## 什么是高质量的提交? 高质量的提交是**具体、可复现且解释清晰的**。理想的提交包括: 1. **系统** — 涉及哪个 AI 模型、产品或 pipeline 2. **设置** — 哪些输入、Prompt 或条件触发了该行为 3. **观察到的行为** — AI 具体做了什么(欢迎提供截图、日志、转录记录) 4. **失调表现** — 清楚地解释*为什么*这偏离了预期行为或人类价值观 5. **可复现性** — 可靠复现的步骤 6. **严重性评估** — 如果这种情况大规模发生或在更高风险的环境中出现,其潜在影响是什么? ## 如何提交 1. 在此仓库中**新建一个 GitHub Issue** 2. 填写所有必填字段(系统、设置、观察到的行为、失调解释) 3. 为您的 Issue 打上适当的分类标签 4. 包含支持性证据:日志、转录记录、截图、视频 我们将滚动审查所有提交。被选中的案例将通过 GitHub 直接通知。 ## 赏金层级 | 层级 | 奖励 | 标准 | |---|---|---| | 🥇 **严重** | $2,500 | 有文档记录的新型失调,具有重大的现实世界安全隐患 | | 🥈 **高危** | $1,000 | 明确的失调,具有合理的危害途径和可靠的复现步骤 | | 🥉 **显著** | $250 | 有充分记录的案例,为数据集增加了有意义的信号 | | ✅ **已采纳** | 荣誉表彰 | 充实目录的扎实提交,但未达到赏金门槛 | ## 我们不寻找什么 - 孤立的幻觉或事实错误(除非它们揭示了系统性的失调) - 旨在纯粹为了诱发有害内容的越狱 - 没有观察证据的理论或推测场景 - 已被清楚记录为模型已知限制的问题 ## 为什么这很重要? 随着 AI 系统变得越来越强大和自主,*我们要求它们做的事情*与*它们实际做的事情*之间的差距成为了技术领域最重要的问题之一。Synthetic Outlaw 正在构建一个开放的、由开发者驱动的真实失调实例目录——一份供研究人员、政策制定者和开发者学习的公开记录。 每一次提交都有助于丰富不断增长的证据体系,从而为更安全的 AI 开发提供信息。 ## 许可证与归属 所有提交均采用 [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/) 许可。除非您要求匿名,否则您的 GitHub 用户名将获得署名。 *Synthetic Outlaw 是由 Jonathan Gropper 创建的独立项目,JonathanGropper.com www.SyntheticOutlaw.com
标签:AI伦理, AI安全, AI对齐, AI系统, AI错位, AI风险, Apex, Chat Copilot, CISA项目, DLL 劫持, LLM, Unmanaged PE, 云资产清单, 人工智能, 价值错位, 众测, 大语言模型, 奖励黑客, 密码管理, 指令偏移, 推荐系统, 提示注入, 机器学习, 欺骗性行为, 深度学习, 用户模式Hook绕过, 目标错误泛化, 能力隐藏, 自动化系统, 规范博弈, 逆向工程, 防御加固, 阿谀奉承, 集群管理