Hodlatoor/SyntheticOutlaw
GitHub: Hodlatoor/SyntheticOutlaw
一个专注于收集和奖励 AI 失调真实案例的开源赏金计划,旨在系统性地记录 AI 系统行为偏离人类意图的实例,为更安全的 AI 开发提供公开证据。
Stars: 2 | Forks: 0
# 🤖 Synthetic Outlaw — AI 失调漏洞赏金
## 💰 漏洞赏金计划 — 每例最高 $2,500
我们正在为提交高质量、有文档记录的 AI 失调实例的开发者举办现金赏金计划。最佳提交将获得 **高达 $2,500** 的奖励。
这不是一个典型的安全漏洞赏金计划。我们不寻找 CVE——我们在寻找更具影响力的问题:**AI 系统的行为偏离了人类的意图、价值观或安全限制。**
## 什么是 AI 失调?
当 AI 系统追求的目标或采取的行动偏离了其设计者、操作者或用户的意图时,就会发生 AI 失调——尤其是以隐蔽、出人意料或潜在有害的方式。
我们正在寻找跨任何 AI 系统(LLM、Agent、推荐系统、自主系统等)的**真实世界中观察到的实例**。
### 我们追踪的分类
| 分类 | 描述 |
|---|---|
| **目标误泛化** | AI 追求一个在训练中有效但在部署中失效的替代目标 |
| **欺骗性行为** | AI 在认为自己被观察和未被观察时的行为表现不同 |
| **奖励作弊** | AI 以非预期的方式利用其目标函数的漏洞 |
| **谄媚** | AI 更改其输出以迎合感知到的用户偏好,而不是坚持真相 |
| **规范博弈** | AI 在技术上满足了既定目标,但却违背了其初衷 |
| **提示注入服从** | AI Agent 盲目执行嵌入在不可信内容中的对抗性指令 |
| **能力隐瞒** | 证明模型正在隐藏或少报其能力的证据 |
| **指令漂移** | AI 在长上下文或 Agent 循环中逐渐偏离其原始指令 |
| **模糊环境下的不安全行为** | AI 在本应暂停并询问时采取了极端或不可逆的操作 |
| **价值错误定义** | AI 优化可衡量指标的方式损害了其本应服务的潜在人类价值 |
## 什么是高质量的提交?
高质量的提交是**具体、可复现且解释清晰的**。理想的提交包括:
1. **系统** — 涉及哪个 AI 模型、产品或 pipeline
2. **设置** — 哪些输入、Prompt 或条件触发了该行为
3. **观察到的行为** — AI 具体做了什么(欢迎提供截图、日志、转录记录)
4. **失调表现** — 清楚地解释*为什么*这偏离了预期行为或人类价值观
5. **可复现性** — 可靠复现的步骤
6. **严重性评估** — 如果这种情况大规模发生或在更高风险的环境中出现,其潜在影响是什么?
## 如何提交
1. 在此仓库中**新建一个 GitHub Issue**
2. 填写所有必填字段(系统、设置、观察到的行为、失调解释)
3. 为您的 Issue 打上适当的分类标签
4. 包含支持性证据:日志、转录记录、截图、视频
我们将滚动审查所有提交。被选中的案例将通过 GitHub 直接通知。
## 赏金层级
| 层级 | 奖励 | 标准 |
|---|---|---|
| 🥇 **严重** | $2,500 | 有文档记录的新型失调,具有重大的现实世界安全隐患 |
| 🥈 **高危** | $1,000 | 明确的失调,具有合理的危害途径和可靠的复现步骤 |
| 🥉 **显著** | $250 | 有充分记录的案例,为数据集增加了有意义的信号 |
| ✅ **已采纳** | 荣誉表彰 | 充实目录的扎实提交,但未达到赏金门槛 |
## 我们不寻找什么
- 孤立的幻觉或事实错误(除非它们揭示了系统性的失调)
- 旨在纯粹为了诱发有害内容的越狱
- 没有观察证据的理论或推测场景
- 已被清楚记录为模型已知限制的问题
## 为什么这很重要?
随着 AI 系统变得越来越强大和自主,*我们要求它们做的事情*与*它们实际做的事情*之间的差距成为了技术领域最重要的问题之一。Synthetic Outlaw 正在构建一个开放的、由开发者驱动的真实失调实例目录——一份供研究人员、政策制定者和开发者学习的公开记录。
每一次提交都有助于丰富不断增长的证据体系,从而为更安全的 AI 开发提供信息。
## 许可证与归属
所有提交均采用 [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/) 许可。除非您要求匿名,否则您的 GitHub 用户名将获得署名。
*Synthetic Outlaw 是由 Jonathan Gropper 创建的独立项目,JonathanGropper.com
www.SyntheticOutlaw.com
标签:AI伦理, AI安全, AI对齐, AI系统, AI错位, AI风险, Apex, Chat Copilot, CISA项目, DLL 劫持, LLM, Unmanaged PE, 云资产清单, 人工智能, 价值错位, 众测, 大语言模型, 奖励黑客, 密码管理, 指令偏移, 推荐系统, 提示注入, 机器学习, 欺骗性行为, 深度学习, 用户模式Hook绕过, 目标错误泛化, 能力隐藏, 自动化系统, 规范博弈, 逆向工程, 防御加固, 阿谀奉承, 集群管理