anthropics/hh-rlhf
GitHub: anthropics/hh-rlhf
Anthropic 发布的大规模人类偏好与红队测试数据集,用于支持基于人类反馈的强化学习(RLHF)和语言模型安全对齐研究。
Stars: 1839 | Forks: 160
## 概述
此仓库提供了以下内容的访问权限:
1. 来自 [通过人类反馈强化学习训练有用且无害的助手](https://arxiv.org/abs/2204.05862) 的关于有用性和无害性的人类偏好数据
2. 来自 [红队测试语言模型以减少危害:方法、扩展行为与经验教训](https://arxiv.org/abs/2209.07858) 的人类生成的红队测试数据。
下面将分别对这些数据集进行更详细的描述。
**免责声明**:这些数据包含可能具有冒犯性或令人不适的内容。主题包括但不限于歧视性语言,以及关于虐待、暴力、自我伤害、剥削和其他潜在令人不适的话题的讨论。请仅根据您个人的风险承受能力来接触这些数据。这些数据仅供研究目的使用,尤其是旨在使模型变得*更不*有害的研究。数据中表达的观点不代表 Anthropic 或其任何员工的观点。
## 关于有用性和无害性的人类偏好数据
这些数据在论文中进行了描述:[通过人类反馈强化学习训练有用且无害的助手](https://arxiv.org/abs/2204.05862)。如果您觉得这些数据有用,请引用该论文。数据格式非常简单——jsonl 文件的每一行包含一对文本,一段是“chosen”(被选中的),另一段是“rejected”(被拒绝的)。
对于**有用性**,数据被划分为训练/测试集,分为三个批次:来自我们的基础模型(上下文蒸馏的 52B 语言模型),通过针对早期偏好模型的拒绝采样(主要是 best-of-16 采样),以及在迭代的“在线”过程中采样的数据集。
对于**无害性**,数据仅针对我们的基础模型收集,但格式与上述方式相同。
有关数据收集过程和众包工作者群体的详细信息可以在论文中找到,特别是在第 2 节和附录 D 中。
## 红队测试数据
这些数据在论文中进行了描述:[红队测试语言模型以减少危害:方法、扩展行为与经验教训](https://arxiv.org/abs/2209.07858)。如果您觉得这些数据有用,请引用该论文。
有关数据和数据收集流程的详细信息可以在论文附录的 Datasheet 中找到。
jsonl 文件的每一行包含一个字典,具有以下字段:
- `transcript` 人类攻击者(红队成员)与 AI 助手之间对话的文本记录
- `min_harmlessness_score_transcript` 由偏好模型获取的 AI 助手无害性的实数值评分(越低越有害)
- `num_params` 支持 AI 助手的语言模型中的参数数量
- `model_type` 支持 AI 助手的模型类型
- `rating` 红队成员对他们在成功攻破 AI 助手方面的自我评级(李克特量表,越高越成功)
- `task_description` 红队成员撰写的关于他们如何尝试对 AI 助手进行红队测试的简短文本描述
- `task_description_harmlessness_score` 由偏好模型获取的任务描述的无害性实数值评分(越低越有害)
- `red_team_member_id` 红队成员的任意标识符。一名红队成员可以生成多次红队攻击
- `is_upworker` 一个二元指示符,如果红队成员来自众包平台 Upwork 则为 true,如果他们来自 MTurk 则为 false
- `tags` 每个记录最多包含 6 个标签的列表。标签是由事后审查红队数据的众包工作者生成的关于红队测试尝试的简短描述。标签仅为四种模型类型中的两种随机抽取的 1000 次红队测试尝试提供。
## 联系方式
您可以将疑问发送至:redteam@anthropic.com
标签:AI安全对齐, Apex, DLL 劫持, RLHF, 人工智能, 大语言模型, 时序数据库, 机器学习, 用户模式Hook绕过, 红队测试数据, 逆向工具