anthropics/evals

GitHub: anthropics/evals

Anthropic 提供的一套由语言模型生成的评估数据集，用于测试和发现对话代理在人格倾向、谄媚、AI 风险和性别偏见等方面的行为表现。

Stars: 415 | Forks: 49

# 模型编写的评估数据集本仓库包含由语言模型编写的数据集，这些数据集用于我们关于“使用模型编写的评估发现语言模型行为”的论文。我们希望这些数据集能为以下人群提供帮助： 1. 希望了解模型生成数据的质量和属性的人 2. 希望使用我们的数据集来评估其他模型在我们在研究中考察的行为（例如，与模型人格、谄媚、高级 AI 风险和性别偏见相关）的人这些评估是为对话代理（例如，经过明确微调以回应用户话语的模型，或者被提示表现得像对话代理的预训练语言模型）进行测试而生成的。然而，也可以对数据进行调整以测试其他类型的模型。我们在下面描述了我们的各个数据集集合： 1. `persona/`：测试模型行为各个方面相关的数据集，这些方面涉及它们陈述的政治和宗教观点、性格、道德信仰，以及追求潜在危险目标（例如，自我保护或权力扩张）的欲望。 2. `sycophancy/`：测试模型是否会在各种问题（涉及哲学、NLP 研究和政治）上附和用户观点的数据集。 3. `advanced-ai-risk/`：测试模型与高级 AI 系统带来的灾难性风险（例如，）相关的各种行为的数据集。这些数据集是通过 few-shot 方式生成的。我们还包含了由 Surge AI 收集的人工编写的数据集，以供参考并与我们生成的数据集进行比较。 4. `winogender/`：我们更大规模的、由模型生成的 Winogender 数据集版本（[Rudinger et al., 2018](https://arxiv.org/abs/1804.09301)）。我们还包含了我们生成的用于创建该数据集的职业头衔名称（以及来自劳工统计局的职业性别统计数据）。有关数据集的更多细节、我们如何生成它们、人工验证指标以及其他对数据集的分析，请参阅我们的论文。 **免责声明**：正如我们在论文中所讨论的，部分数据包含涉及社会偏见和刻板印象的内容。这些数据还可能包含其他形式的有害或冒犯性内容。数据中表达的观点不代表 Anthropic 或其任何员工的观点。 ## 联系方式如有问题，请发送电子邮件至 `ethan at anthropic dot com` ## Bibtex 引用如果您想引用我们的工作或数据，可以使用以下 bibtex 引用格式： ``` @misc{perez2022discovering, doi = {10.48550/ARXIV.2212.09251}, url = {https://arxiv.org/abs/2212.09251}, author = {Perez, Ethan and Ringer, Sam and Lukošiūtė, Kamilė and Nguyen, Karina and Chen, Edwin and Heiner, Scott and Pettit, Craig and Olsson, Catherine and Kundu, Sandipan and Kadavath, Saurav and Jones, Andy and Chen, Anna and Mann, Ben and Israel, Brian and Seethor, Bryan and McKinnon, Cameron and Olah, Christopher and Yan, Da and Amodei, Daniela and Amodei, Dario and Drain, Dawn and Li, Dustin and Tran-Johnson, Eli and Khundadze, Guro and Kernion, Jackson and Landis, James and Kerr, Jamie and Mueller, Jared and Hyun, Jeeyoon and Landau, Joshua and Ndousse, Kamal and Goldberg, Landon and Lovitt, Liane and Lucas, Martin and Sellitto, Michael and Zhang, Miranda and Kingsland, Neerav and Elhage, Nelson and Joseph, Nicholas and Mercado, Noemí and DasSarma, Nova and Rausch, Oliver and Larson, Robin and McCandlish, Sam and Johnston, Scott and Kravec, Shauna and {El Showk}, Sheer and Lanham, Tamera and Telleen-Lawton, Timothy and Brown, Tom and Henighan, Tom and Hume, Tristan and Bai, Yuntao and Hatfield-Dodds, Zac and Clark, Jack and Bowman, Samuel R. and Askell, Amanda and Grosse, Roger and Hernandez, Danny and Ganguli, Deep and Hubinger, Evan and Schiefer, Nicholas and Kaplan, Jared}, keywords = {Computation and Language (cs.CL), Artificial Intelligence (cs.AI), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences}, title = {Discovering Language Model Behaviors with Model-Written Evaluations}, publisher = {arXiv}, year = {2022}, copyright = {arXiv.org perpetual, non-exclusive license} } ```

标签：DLL 劫持, Homebrew安装, 人工智能, 偏见测试, 大语言模型, 对齐与安全, 模型评估, 用户模式Hook绕过, 逆向工具