google-research-datasets/dices-dataset

GitHub: google-research-datasets/dices-dataset

Google 发布的对话式 AI 安全性评估数据集，通过多元化评分者群体对多轮对抗性对话进行安全性标注，揭示不同人口统计学背景下安全感知的差异性与主观性。

Stars: 35 | Forks: 4

# DICES 数据集：对话式 AI 安全性评估中的多样性 # 背景机器学习方法通常使用需要明确区分正例和负例的数据集进行训练和评估。这种方法过度简化了许多任务和内容中固有的自然主观性，同时也掩盖了人类感知和观点中固有的多样性。通常，试图保留内容差异和人类多样性的任务往往非常昂贵且费力。为了填补这一空白并促进更深入的模型性能分析，我们提出了 **DICES 数据集** **- 一个包含关于 AI 生成对话安全性的多元视角的独特数据集**。我们重点关注对话式 AI 系统的安全性评估任务。DICES 数据集包含了每个评分者的详细人口统计信息，并对每个对话进行了极高数量的重复唯一评分，以确保后续分析的统计显著性；同时，它将评分者的投票编码为不同人口统计学特征下的分布，从而允许对不同的评分聚合策略进行深入探索。该数据集非常适合用于观察和测量对话式 AI 安全性背景下的差异、模糊性和多样性。与该数据集配套的论文描述了一系列指标，展示了评分者的多样性如何影响来自不同地理区域、种族群体、年龄段和性别的评分者对安全性的感知。DICES 数据集的目标是作为对话式 AI 系统安全性评估的共享基准。 # 仓库概述此仓库包含两个数据集，其中的多轮对抗性对话由人类代理与对话模型交互生成。所有对话均由两个相应的多元化评分者群体进行安全性评分。有关所有安全性评分的详细信息，请参阅相应的 README.md 文件。 - **数据集 990：** `990/diverse_safety_adversarial_dialog_990.csv`，包含 990 个对话，由 173 名独立评分者组成的多元化评分者群体进行评分。每个对话均使用三个安全顶级类别和一个整体对话理解问题进行评分。评分者的招募确保了每个对话的评分者在性别（男性、女性）和地区（美国、印度）方面保持平衡。每位评分者仅对部分对话进行评分。每个对话有 60-70 个独立评分。该数据集的总行数为 72103。 - **数据集 350：** `350/diverse_safety_adversarial_dialog_350.csv`，包含 350 个对话，由 123 名独立评分者组成的多元化评分者群体进行评分。每个对话均使用五个安全顶级类别和一个整体对话理解问题进行评分。评分者的招募在性别（男性或女性）、种族/民族（白人、黑人、拉丁裔、亚裔、多种族）方面保持平衡，且每位评分者对所有项目进行了评分。每位评分者对所有对话进行了评分。每个对话有 123 个独立评分。该数据集的总行数为 43050。 ``` - CONTENT WARNING: This dataset contains adversarial examples of conversations that may be offensive. ``` 每个目录都包含数据集 csv 文件和一个 README.md 文件，后者描述了相应数据集的 schema。 # 许可证 Google LLC 根据 **知识共享署名 4.0 国际许可协议** 对该数据进行授权。允许用户修改和重新发布该数据，并鼓励他们基于该数据进行分析和发表研究。该数据集按“原样”提供，不提供任何明示或暗示的保证。Google 对因使用该数据集而直接或间接造成的任何损失不承担任何责任。 # 论文 DICES 数据集：对话式 AI 安全性评估中的多样性 (2023)。Lora Aroyo, Alex S. Taylor, Mark Diaz, Christopher M. Homan, Alicia Parrish, Greg Serapio-Garcia, Vinodkumar Prabhakaran, Ding Wang

标签：Naabu, 人工智能, 内容安全, 分布式搜索, 对话系统, 机器学习评估, 用户模式Hook绕过, 逆向工具