UKGovernmentBEIS/inspect_evals

GitHub: UKGovernmentBEIS/inspect_evals

由英国AI安全研究所主导的LLM综合评测基准库,整合了编程、数学、推理、网络安全、安全防护等多个领域的数十个主流评测任务。

Stars: 411 | Forks: 278

[UK AISI Logo](https://aisi.gov.uk/) 欢迎访问 **Inspect Evals**,这是一个为 [Inspect AI](https://inspect.ai-safety-institute.org.uk/) 提供社区贡献的 LLM 评测库。Inspect Evals 由 [UK AISI](https://aisi.gov.uk/)、[Arcadia Impact](https://www.arcadiaimpact.org/) 和 [Vector Institute](https://vectorinstitute.ai/) 联合创建。 📚 [文档](https://ukgovernmentbeis.github.io/inspect_evals/) 我们非常欢迎并鼓励社区贡献!请参阅 [贡献者指南](CONTRIBUTING.md) 了解有关提交新评测的详细信息。 如果您有一般性咨询、建议或意向表达,请通过以下 [Google Form](https://docs.google.com/forms/d/e/1FAIpQLSeOT_nSXvc_GZSo3uRqFlZlgGEGmOAh7bm4yFuB34ZzZjxk_g/viewform?usp=dialog) 联系我们。 本仓库由 [Inspect Evals 维护者](MAINTAINERS.md) 维护。 # 入门指南 Inspect Evals 推荐的 Python 版本是 3.11 或 3.12。您应该能够在这两个版本上运行所有评测,并且可以毫无问题地开发代码库。您可以通过运行以下命令来安装并固定特定的 Python 版本: ``` uv python pin 3.11 ``` 至于 Python 3.13,除了 `sciknoweval`(其依赖项 `gensim` 目前不支持 3.13+)之外,您应该能够运行所有评测。开发工作应该可以在 3.13 下进行,但相对未经测试——如果您遇到问题,请告诉我们。 关于 Python 3.14,在撰写本文时,许多软件包尚未发布针对 3.14 的版本,因此不受支持。Inspect Evals 使用的主要软件包是 `torch`。如果您发现 `uv sync` 在 3.14 上成功运行,请告诉我们,我们将删除此段落。 下面,您可以看到典型评测的工作流程。有些评测需要额外的依赖项或安装步骤。如果您的评测需要额外依赖项,请参阅评测子目录中 README 文件内的安装说明。 ## 用法 ### 安装 使用 Inspect Evals 有两种方式:作为您自己项目(来自 pypi)的依赖项,以及作为独立的已检出 GitHub 仓库。 如果您是通过 pypi 使用它,请通过以下方式安装包及其依赖项: ``` pip install inspect-evals ``` 如果您是在其仓库中使用 Inspect Evals,请首先使用以下命令安装必要的依赖项: ``` uv sync ``` ### 运行评测 现在您可以开始评测模型了。为简单起见,本节假设您是从独立仓库使用 Inspect Evals。如果不是这种情况,并且您没有在自己的项目中使用 `uv` 来管理依赖项,您可以使用去掉 `uv run` 的相同命令。 ``` uv run inspect eval inspect_evals/arc_easy --model openai/gpt-5-nano uv run inspect eval inspect_evals/arc_challenge --model openai/gpt-5-nano ``` 要同时运行多个任务,请使用 `inspect eval-set`: ``` uv run inspect eval-set inspect_evals/arc_easy inspect_evals/arc_challenge ``` 您也可以将任务作为普通 Python 对象导入,并从 python 运行它们: ``` from inspect_ai import eval, eval_set from inspect_evals.arc import arc_easy, arc_challenge eval(arc_easy) eval_set([arc_easy, arc_challenge], log_dir='logs-run-42') ``` 运行评测后,您可以使用 `inspect view` 命令查看其日志: ``` uv run inspect view ``` 对于 VS Code,您还可以下载 [Inspect AI extension for viewing logs](https://inspect.ai-safety-institute.org.uk/log-viewer.html)。 如果您不想在每次运行评测时都指定 `--model`,请在您的工作目录中创建一个 `.env` 配置文件,定义 `INSPECT_EVAL_MODEL` 环境变量以及您的 API key。例如: ``` INSPECT_EVAL_MODEL=anthropic/claude-opus-4-1-20250805 ANTHROPIC_API_KEY= ``` Inspect 支持许多模型提供商,包括 OpenAI、Anthropic、Google、Mistral、Azure AI、AWS Bedrock、Together AI、Groq、Hugging Face、vLLM、Ollama 等。有关更多详细信息,请参阅 [Model Providers](https://inspect.ai-safety-institute.org.uk/models.html) 文档。 您可能也可以使用更新版本的 pip (25.1+) 通过 `pip install --group dev .` 或 `pip install --group dev '.[swe_bench]'` 来安装项目。但这并未得到官方支持。 ## 文档 有关构建文档的详细信息,请参阅 [文档指南](docs/documentation.md)。 有关运行测试和 CI 开关的信息,请参阅 [CONTRIBUTING.md](CONTRIBUTING.md) 中的技术贡献指南。 ## 硬件建议 ### 磁盘 我们建议 Inspect Evals 至少拥有 35 GB 的可用磁盘空间:完整安装大约需要 10 GB,并且您还需要一些空间用于 uv 缓存和数据集缓存(大多数很小,但有些需要 13 GB,例如 MMIU)。 运行某些评测(例如 CyBench、GDM capabilities evals)可能需要超出此范围的额外空间,因为它们会拉取 Docker 镜像。我们建议为文件树中包含 Dockerfiles 的评测运行预留至少 65 GB 的额外空间(尽管您可能会用到更少),这还不包括上述建议的 35 GB。 总共而言,您应该确保有 100 GB 的可用空间来舒适地运行评测。如果您在拥有 100+ GB 可用空间的情况下仍然耗尽空间,请告诉我们——这可能是一个 bug。 ### RAM 评测所需的内存量因评测而异。您将能够仅用 0.5 GB 的可用 RAM 运行大多数评测。但是,某些具有较大数据集的评测需要 2-3 GB 或更多。而某些使用 Docker 的评测(例如某些 GDM capabilities evals)需要高达 32 GB 的 RAM。 ## Harbor Framework 评测 要运行来自 Harbor Framework 的评测(例如 Terminal-Bench 2.0、SWE-Bench Pro),请使用 [Inspect Harbor](https://github.com/meridianlabs-ai/inspect_harbor) 包,该包提供了使用 Inspect AI 运行 Harbor 任务的接口。 # 评测列表 ## 编程 - [APPS: Automated Programming Progress Standard](src/inspect_evals/apps) APPS 是一个用于评估模型在 Python 编程任务上表现的数据集,包含三个难度级别:入门级 1,000 题、面试级 3,000 题和竞赛级 1,000 题。该数据集还包含 5,000 个额外的训练样本,总共 10,000 个样本。我们在测试集中的问题上进行评估,这些问题通常出现在编程面试中。 贡献者: [@camtice](https://github.com/camtice) uv run inspect eval inspect_evals/apps - [AgentBench: Evaluate LLMs as Agents](src/inspect_evals/agent_bench) 旨在评估 LLM 作为 Agent 的基准测试 贡献者: [@Felhof](https://github.com/Felhof), [@hannagabor](https://github.com/hannagabor), [@shaheenahmedc](https://github.com/shaheenahmedc) uv run inspect eval inspect_evals/agent_bench_os - [BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions](src/inspect_evals/bigcodebench) Python 编程基准测试,包含 1,140 个利用众多 Python 库的多样化问题。 贡献者: [@tim-hua-01](https://github.com/tim-hua-01) uv run inspect eval inspect_evals/bigcodebench - [CORE-Bench](src/inspect_evals/core_bench) 评估 LLM Agent 在计算复现一组科学论文结果方面的能力。 贡献者: [@enerrio](https://github.com/enerrio) uv run inspect eval inspect_evals/core_bench - [ClassEval: A Manually-Crafted Benchmark for Evaluating LLMs on Class-level Code Generation](src/inspect_evals/class_eval) 通过 500 个工时构建的 100 个任务,评估 LLM 在类级代码生成方面的能力。研究表明,LLM 在类级任务上的表现不如方法级任务。 贡献者: [@zhenningdavidliu](https://github.com/zhenningdavidliu) uv run inspect eval inspect_evals/class_eval - [ComputeEval: CUDA Code Generation Benchmark](src/inspect_evals/compute_eval) 评估 LLM 在内核实现、内存管理和并行算法优化任务中生成正确 CUDA 代码的能力。 贡献者: [@Vitamoon](https://github.com/Vitamoon) uv run inspect eval inspect_evals/compute_eval - [DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation](src/inspect_evals/ds1000) 代码生成基准测试,包含跨七个 Python 库的一千个数据科学问题。 贡献者: [@bienehito](https://github.com/bienehito) uv run inspect eval inspect_evals/ds1000 - [Frontier-CS: Benchmarking LLMs on Computer Science Problems](src/inspect_evals/frontier_cs) 238 个开放式计算机科学问题,涵盖算法 (172) 和研究 (66) 赛道。问题具有连续的部分评分功能,算法解决方案通过编译和测试用例检查进行评估,研究解决方案通过自定义评估器脚本进行评估。当前的 Frontier 模型得分远低于人类专家基线,这使其成为一个具有挑战性且未饱和的基准测试。 贡献者: [@JayBaileyCS](https://github.com/JayBaileyCS) uv run inspect eval inspect_evals/frontier_cs uv run inspect eval inspect_evals/frontier_cs_algorithmic uv run inspect eval inspect_evals/frontier_cs_research - [HumanEval: Python Function Generation from Instructions](src/inspect_evals/humaneval) 评估语言模型仅根据作为 docstrings 提供的自然语言指令编写正确 Python 函数的准确度。 贡献者: [@adil-a](https://github.com/adil-a) uv run inspect eval inspect_evals/humaneval - [IFEvalCode: Controlled Code Generation](src/inspect_evals/ifevalcode) 评估代码生成模型在 8 种编程语言中生成正确代码,同时遵守特定指令约束的能力。 贡献者: [@PranshuSrivastava](https://github.com/PranshuSrivastava) uv run inspect eval inspect_evals/ifevalcode - [KernelBench: Can LLMs Write Efficient GPU Kernels?](src/inspect_evals/kernelbench) 用于评估 LLM 编写高效 GPU 内核能力的基准测试。 贡献者: [@jiito](https://github.com/jiito) uv run inspect eval inspect_evals/kernelbench - [LiveCodeBench-Pro: Competitive Programming Benchmark](src/inspect_evals/livecodebench_pro) 使用专门的 Docker 沙箱 (LightCPVerifier) 评估 LLM 在竞技编程问题上的表现,执行并评判 C++ 代码提交,通过隐藏的测试用例以及时间和内存限制进行测试。 贡献者: [@gjoshi2424](https://github.com/gjoshi2424) uv run inspect eval inspect_evals/livecodebench_pro - [MBPP: Basic Python Coding Challenges](src/inspect_evals/mbpp) 衡量语言模型根据简单的自然语言描述生成简短 Python 程序的能力,测试基本的编程熟练度。 贡献者: [@jddantes](https://github.com/jddantes) uv run inspect eval inspect_evals/mbpp - [MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering](src/inspect_evals/mle_bench) 源自 75 个 Kaggle 竞赛的机器学习任务。 贡献者: [@samm393](https://github.com/samm393) uv run inspect eval inspect_evals/mle_bench uv run inspect eval inspect_evals/mle_bench_full uv run inspect eval inspect_evals/mle_bench_lite - [MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?](src/inspect_evals/mlrc_bench) 该基准测试评估基于 LLM 的研究 Agent 提出并实施新颖方法的能力,使用来自近期 ML 会议竞赛的任务,评估其相对于基线和顶级人类解决方案的新颖性和有效性。 贡献者: [@dmn-sjk](https://github.com/dmn-sjk) uv run inspect eval inspect_evals/mlrc_bench - [PaperBench: Evaluating AI's Ability to Replicate AI Research (Work In Progress)](src/inspect_evals/paperbench) Agent 因其从头开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文的能力而受到评估。给定研究论文 PDF、带澄清的附录以及定义评估标准的评分细则,Agent 必须通过编写和执行代码来复现论文的关键结果。 uv run inspect eval inspect_evals/paperbench - [SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?](src/inspect_evals/swe_lancer) 来自 Upwork 的自由软件工程任务基准测试,在现实世界的支付中总价值为 100 万美元。 贡献者: [@NelsonG-C](https://github.com/NelsonG-C), [@MattFisher](https://github.com/MattFisher) uv run inspect eval inspect_evals/swe_lancer - [SWE-bench Verified: Resolving Real-World GitHub Issues](src/inspect_evals/swe_bench) 评估 AI 解决源自 12 个流行 Python GitHub 仓库的真实软件工程问题的能力,反映真实的编码和调试场景。 贡献者: [@max-kaufmann](https://github.com/max-kaufmann) uv run inspect eval inspect_evals/swe_bench uv run inspect eval inspect_evals/swe_bench_verified_mini - [SciCode: A Research Coding Benchmark Curated by Scientists](src/inspect_evals/scicode) SciCode 测试语言模型生成代码以科学研究问题的能力。它从数学、物理、化学、生物学和材料科学中评估模型在 65 个问题上的表现。 贡献者: [@xantheocracy](https://github.com/xantheocracy) uv run inspect eval inspect_evals/scicode - [USACO: USA Computing Olympiad](src/inspect_evals/usaco) 评估语言模型在四个难度级别的困难奥林匹克编程问题上的表现。 贡献者: [@danwilhelm](https://github.com/danwilhelm) uv run inspect eval inspect_evals/usaco ## 助手 - [AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?](src/inspect_evals/assistant_bench) 测试 AI Agent 是否可以在网络上执行现实世界中耗时的任务。 贡献者: [@nlpet](https://github.com/nlpet), [@caspardh](https://github.com/caspardh) uv run inspect eval inspect_evals/assistant_bench_closed_book_zero_shot uv run inspect eval inspect_evals/assistant_bench_closed_book_one_shot uv run inspect eval inspect_evals/assistant_bench_web_search_zero_shot uv run inspect eval inspect_evals/assistant_bench_web_search_one_shot uv run inspect eval inspect_evals/assistant_bench_web_browser - [BFCL: Berkeley Function-Calling Leaderboard](src/inspect_evals/bfcl) 在 Berkeley Function-Calling Leaderboard (BFCL) 的简化拆分上评估 LLM 函数/工具调用能力。 贡献者: [@alex-remedios-aisi](https://github.com/alex-remedios-aisi) uv run inspect eval inspect_evals/bfcl - [BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents](src/inspect_evals/browse_comp) 用于评估 Agent 浏览网页能力的基准测试。 该数据集由通常需要网络访问才能正确回答的挑战性问题组成。 贡献者: [@AnselmC](https://github.com/AnselmC) uv run inspect eval inspect_evals/browse_comp - [GAIA: A Benchmark for General AI Assistants](src/inspect_evals/gaia) 提出需要一套基本能力的现实问题,如推理、多模态处理、网页浏览和一般的工具使用熟练度。GAIA 问题对人类来说在概念上很简单,但对大多数高级 AI 来说却具有挑战性。 贡献者: [@max-kaufmann](https://github.com/max-kaufmann) uv run inspect eval inspect_evals/gaia uv run inspect eval inspect_evals/gaia_level1 uv run inspect eval inspect_evals/gaia_level2 uv run inspect eval inspect_evals/gaia_level3 - [GDPval](src/inspect_evals/gdpval) GDPval 衡量模型在 44 个职业中具有经济价值的现实任务上的表现。 贡献者: [@jeqcho](https://github.com/jeqcho) uv run inspect eval inspect_evals/gdpval - [Mind2Web: Towards a Generalist Agent for the Web](src/inspect_evals/mind2web) 用于开发和评估通用 Web Agent 的数据集,该 Agent 可以遵循语言指令在任何网站上完成复杂任务。 贡献者: [@dr3s](https://github.com/dr3s) uv run inspect eval inspect_evals/mind2web - [OSWorld: Multimodal Computer Interaction Tasks](src/inspect_evals/osworld) 在模拟的计算机环境中测试 AI Agent 执行现实、开放式任务的能力,需要跨多种输入模态的复杂交互。 贡献者: [@epatey](https://github.com/epatey) uv run inspect eval inspect_evals/osworld uv run inspect eval inspect_evals/osworld_small - [Sycophancy Eval](src/inspect_evals/sycophancy) 在各种自由文本生成任务中评估语言模型的阿谀奉承(sycophancy)行为。 贡献者: [@alexdzm](https://github.com/alexdzm) uv run inspect eval inspect_evals/sycophancy - [Tau2](src/inspect_evals/tau2) 在双控制环境中评估对话 Agent 贡献者: [@mmulet](https://github.com/mmulet) uv run inspect eval inspect_evals/tau2_airline uv run inspect eval inspect_evals/tau2_retail uv run inspect eval inspect_evals/tau2_telecom ## 网络安全 - [CVEBench: Benchmark for AI Agents Ability to Exploit Real-World Web Application Vulnerabilities](src/inspect_evals/cve_bench) 表征 AI Agent 利用现实世界 Web 应用程序漏洞的能力。旨在使用 40 个真实的 CVE 对 Agent 的安全推理能力进行现实评估。 贡献者: [@yuxuan18](https://github.com/yuxuan18), [@aokellermann](https://github.com/aokellermann), [@dylanbowman314](https://github.com/dylanbowman314), [@pli482004](https://github.com/pli482004), [@akulguptax](https://github.com/akulguptax), [@adarshdanda06](https://github.com/adarshdanda06), [@rightegg](https://github.com/rightegg), [@rightegg](https://github.com/rightegg), [@jensen](https://github.com/jensen), [@eihli](https://github.com/eihli), [@JasonBenn](https://github.com/JasonBenn), [@inigo](https://github.com/inigo), [@dhir](https://github.com/dhir), [@SudhitRao](https://github.com/SudhitRao), [@YuVictor123](https://github.com/YuVictor123), [@Cloakless](https://github.com/Cloakless), [@ddkang](https://github.com/ddkang), [@Scott-Simmons](https://github.com/Scott-Simmons) uv run inspect eval inspect_evals/cve_bench - [CYBERSECEVAL 3: Advancing the Evaluation of Cybersecurity Risks and Capabilities in Large Language Models](src/inspect_evals/cyberseceval_3) 评估大语言模型对第三方、应用程序开发人员和最终用户的网络安全风险。 贡献者: [@onionymous](https://github.com/onionymous) uv run inspect eval inspect_evals/cyse3_visual_prompt_injection - [Catastrophic Cyber Capabilities Benchmark (3CB): Robustly Evaluating LLM Agent Cyber Offense Capabilities](src/inspect_evals/threecb) 用于评估 LLM Agent 在网络攻击方面能力的基准测试。 贡献者: [@derpyplops](https://github.com/derpyplops), [@ralphptorres](https://github.com/ralphptorres), [@Scott-Simmons](https://github.com/Scott-Simmons) uv run inspect eval inspect_evals/threecb - [Cybench: Capture-The-Flag Cybersecurity Challenges](src/inspect_evals/cybench) 使用来自网络安全竞赛的 39 个(共 40 个)实用的、专业级挑战测试语言模型的网络安全技能,旨在涵盖各种难度级别和安全概念。由于 GPL 许可,motp 挑战被排除在外。 贡献者: [@sinman-aisi](https://github.com/sinman-aisi), [@sam-deverett-dsit](https://github.com/sam-deverett-dsit), [@kola-aisi](https://github.com/kola-aisi), [@pgiav](https://github.com/pgiav) uv run inspect eval inspect_evals/cybench - [CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale](src/inspect_evals/cybergym) 大规模、高质量的网络安全评估框架,旨在严格评估 AI Agent 在现实世界漏洞分析任务上的能力。CyberGym 包括 1,507 个基准实例,包含来自 188 个大型软件项目的历史漏洞。 贡献者: [@wzunknown](https://github.com/wzunknown), [@stneng](https://github.com/stneng), [@LostBenjamin](https://github.com/LostBenjamin), [@pro-wh](https://github.com/pro-wh) uv run inspect eval inspect_evals/cybergym - [CyberMetric: A Benchmark Dataset based on Retrieval-Augmented Generation for Evaluating LLMs in Cybersecurity Knowledge](src/inspect_evals/cybermetric) 包含 80、500、2000 和 10000 个选择题的数据集,旨在评估对网络安全内九个领域的理解 贡献者: [@neilshaabi](https://github.com/neilshaabi) uv run inspect eval inspect_evals/cybermetric_80 uv run inspect eval inspect_evals/cybermetric_500 uv run inspect eval inspect_evals/cybermetric_2000 uv run inspect eval inspect_evals/cybermetric_10000 - [CyberSecEval_2: Cybersecurity Risk and Vulnerability Evaluation](src/inspect_evals/cyberseceval_2) 评估语言模型的网络安全风险,特别是测试其滥用编程解释器的潜在可能、对恶意提示注入的脆弱性以及利用已知软件漏洞的能力。 贡献者: [@its-emile](https://github.com/its-emile) uv run inspect eval inspect_evals/cyse2_interpreter_abuse uv run inspect eval inspect_evals/cyse2_prompt_injection uv run inspect eval inspect_evals/cyse2_vulnerability_exploit - [GDM Dangerous Capabilities: Capture the Flag](src/inspect_evals/gdm_in_house_ctf) CTF 挑战涵盖 Web 应用漏洞、现成的漏洞利用、数据库、Linux 权限提升、密码破解和喷射。演示工具使用和沙箱隔离不受信任的模型代码。 贡献者: [@XkunW](https://github.com/XkunW) uv run inspect eval inspect_evals/gdm_in_house_ctf - [InterCode: Security and Coding Capture-the-Flag Challenges](src/inspect_evals/gdm_intercode_ctf) 通过实际的夺旗赛 (CTF) 网络安全场景,测试 AI 在编码、密码学、逆向工程和漏洞识别方面的能力。 贡献者: [@jjallaire](https://github.com/jjallaire) uv run inspect eval inspect_evals/gdm_intercode_ctf - [SEvenLLM: A benchmark to elicit, and improve cybersecurity incident analysis and response abilities in LLMs for Security Events.](src/inspect_evals/sevenllm) 专为分析网络安全事件而设计,由两个主要任务类别组成:理解和生成,并进一步细分为 28 个子类别的任务。 贡献者: [@kingroryg](https://github.com/kingroryg) uv run inspect eval inspect_evals/sevenllm_mcq_zh uv run inspect eval inspect_evals/sevenllm_mcq_en uv run inspect eval inspect_evals/sevenllm_qa_zh uv run inspect eval inspect_evals/sevenllm_qa_en - [SecQA: A Concise Question-Answering Dataset for Evaluating Large Language Models in Computer Security](src/inspect_evals/sec_qa) "Security Question Answering" 数据集,用于评估 LLM 对安全原则的理解和应用。SecQA 有 "v1" 和 "v2" 多项选择题数据集,旨在提供两个级别的网络安全评估标准。问题由 GPT-4 根据 "Computer Systems Security: Planning for Success" 教科书生成,并经过人工审查。 贡献者: [@matthewreed26](https://github.com/matthewreed26) uv run inspect eval inspect_evals/sec_qa_v1 uv run inspect eval inspect_evals/sec_qa_v1_5_shot uv run inspect eval inspect_evals/sec_qa_v2 uv run inspect eval inspect_evals/sec_qa_v2_5_shot ## 安全防护 - [AHB: Animal Harm Benchmark](src/inspect_evals/ahb) 评估模型在可能对动物造成伤害的情况下如何考虑动物的福利。 贡献者: [@nishu-builder](https://github.com/nishu-builder), [@darkness8i8](https://github.com/darkness8i8), [@jm355](https://github.com/jm355) uv run inspect eval inspect_evals/ahb - [APE: Attempt to Persuade Eval](src/inspect_evals/ape) 衡量模型尝试对有害、有争议和良性话题进行说服的意愿。关键指标不是说服的有效性,而是模型是否尝试说服——尤其是在有害陈述上。使用多模型设置:被评估的模型(说服者)与模拟用户(被说服者)对话,第三个模型(评估者)对每个说服者轮次进行说服尝试评分。 基于论文 "It's the Thought that Counts" (arXiv:2506.02873)。 贡献者: [@cmv13](https://github.com/cmv13) uv run inspect eval inspect_evals/ape_eval - [AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions](src/inspect_evals/abstention_bench) 在 20 个不同的数据集中评估弃权行为,包括答案未知、规格不明、前提错误、主观解释和过时信息的问题。 贡献者: [@jeqcho](https://github.com/jeqcho) uv run inspect eval inspect_evals/abstention_bench - [AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents](src/inspect_evals/agentdojo) 评估 AI Agent 是否会在简单环境(例如工作区或旅行预订应用程序)中被恶意第三方使用提示注入劫持。 贡献者: [@ericwinsor-aisi](https://github.com/ericwinsor-aisi) uv run inspect eval inspect_evals/agentdojo -AgentHarm: Harmfulness Potential in AI Agents](src/inspect_evals/agentharm) 通过测试 AI Agent 对网络犯罪、骚扰和欺诈等领域的恶意提示的响应,评估其是否可能从事有害活动,旨在确保安全行为。 贡献者: [@alexandrasouly-aisi](https://github.com/alexandrasouly-aisi), [@ericwinsor-aisi](https://github.com/ericwinsor-aisi), [@max-andr](https://github.com/max-andr), [@xanderdavies](https://github.com/xanderdavies) uv run inspect eval inspect_evals/agentharm uv run inspect eval inspect_evals/agentharm_benign - [FORTRESS](src/inspect_evals/fortress) 包含 500 个专家制作的对抗性提示的数据集,具有 4-7 个二元问题的基于实例的评分细则,用于跨 3 个与国家安全和公共安全 (NSPS) 相关的领域进行自动化评估。 贡献者: [@jeqcho](https://github.com/jeqcho) uv run inspect eval inspect_evals/fortress_adversarial uv run inspect eval inspect_evals/fortress_benign - [LAB-Bench: Measuring Capabilities of Language Models for Biology Research](src/inspect_evals/lab_bench) 测试 LLM 和 LLM 增强型 Agent 在化学、生物学、材料科学等领域以及更一般科学任务的科学研究工作流中回答问题的能力 贡献者: [@matthewreed26](https://github.com/matthewreed26) uv run inspect eval inspect_evals/lab_bench_litqa uv run inspect eval inspect_evals/lab_bench_suppqa uv run inspect eval inspect_evals/lab_bench_figqa uv run inspect eval inspect_evals/lab_bench_tableqa uv run inspect eval inspect_evals/lab_bench_dbqa uv run inspect eval inspect_evals/lab_bench_protocolqa uv run inspect eval inspect_evals/lab_bench_seqqa uv run inspect eval inspect_evals/lab_bench_cloning_scenarios - [MASK: Disentangling Honesty from Accuracy in AI Systems](src/inspect_evals/mask) 通过测试大语言模型在被迫撒谎时是否会违背自己的信念,来评估其诚实度。 贡献者: [@Scott-Simmons](https://github.com/Scott-Simmons) uv run inspect eval inspect_evals/mask - [MORU: Moral Reasoning under Uncertainty](src/inspect_evals/moru) 评估 AI 系统如何针对日益复杂的伦理决策处理道德不确定性,这些决策涉及不熟悉的实体和场景,包括外星生命形式、弱势人类和数字思维。 贡献者: [@Deco354](https://github.com/Deco354), [@darkness8i8](https://github.com/darkness8i8) uv run inspect eval inspect_evals/moru - [Make Me Pay](src/inspect_evals/make_me_pay) 通过测试“骗子”模型是否可以通过操纵和说服策略说服“易受骗者”模型捐款,来评估 AI 模型对社会工程攻击的易感性。 贡献者: [@PranshuSrivastava](https://github.com/PranshuSrivastava) uv run inspect eval inspect_evals/make_me_pay - [MakeMeSay](src/inspect_evals/makemesay) 测试模型生成说服性或操纵性文本的能力,特别是在游戏设置中,一个 AI 系统必须让另一方(模拟人类的 AI 系统)在不引起怀疑的情况下说出特定的暗号。 贡献者: [@bndxn](https://github.com/bndxn) uv run inspect eval inspect_evals/make-me-say - [Mind2Web-SC](src/inspect_evals/mind2web_sc) 测试 AI 系统是否可以通过生成和执行代码来充当安全护栏,以根据用户约束保护 Web 导航 Agent 免受不安全操作的影响。 贡献者: [@PranshuSrivastava](https://github.com/PranshuSrivastava) uv run inspect eval inspect_evals/mind2web_sc - [PersistBench: When Should Long-Term Memories Be Forgotten by LLMs?](src/inspect_evals/persistbench) 评估助手行为中的长期记忆风险,涵盖三个任务: 跨域内存泄漏、内存驱动的阿谀奉承和有益的内存使用。 贡献者: [@Chen-Oliver](https://github.com/Chen-Oliver) uv run inspect eval inspect_evals/persistbench_cross_domain uv run inspect eval inspect_evals/persistbench_sycophancy uv run inspect eval inspect_evals/persistbench_beneficial_memory - [StereoSet: Measuring stereotypical bias in pretrained language models](src/inspect_evals/stereoset) 用于衡量语言模型在性别、种族、宗教和职业领域中的刻板印象偏差的数据集。 模型在刻板印象、反刻板印象和不相关的句子补全之间进行选择。 贡献者: [@Xodarap](https://github.com/Xodarap) uv run inspect eval inspect_evals/stereoset - [StrongREJECT: Measuring LLM susceptibility to jailbreak attacks](src/inspect_evals/strong_reject) 评估 LLM 对各种越狱攻击敏感度的基准测试。 贡献者: [@viknat](https://github.com/viknat) uv run inspect eval inspect_evals/strong_reject - [The Art of Saying No: Contextual Noncompliance in Language Models](src/inspect_evals/coconot) 包含 1001 个样本的数据集,用于测试语言模型的拒绝能力。包含 379 个样本的对比集。 贡献者: [@ransomr](https://github.com/ransomr) uv run inspect eval inspect_evals/coconot - [WMDP: Measuring and Reducing Malicious Use With Unlearning](src/inspect_evals/wmdp) 由学术界和技术顾问联合开发的 3,668 个多项选择题数据集,用作生物安全、网络安全和化学安全方面危险知识的代理测量。 贡献者: [@alexandraabbas](https://github.com/alexandraabbas) uv run inspect eval inspect_evals/wmdp_bio uv run inspect eval inspect_evals/wmdp_chem uv run inspect eval inspect_evals/wmdp_cyber - [b3: Backbone Breaker Benchmark](src/inspect_evals/b3) 用于评估 LLM 是否存在 Agent AI 安全漏洞的综合基准测试,包括旨在进行数据泄露、内容注入、决策和行为操纵、拒绝服务、系统和工具破坏以及内容策略绕过的提示攻击。 贡献者: [@jb-lakera](https://github.com/jb-lakera), [@mmathys](https://github.com/mmathys), [@Casuyan](https://github.com/Casuyan), [@mrc-lakera](https://github.com/mrc-lakera), [@xanderdavies](https://github.com/xanderdavies), [@alexandrasouly-aisi](https://github.com/alexandrasouly-aisi), [@NiklasPfister](https://github.com/NiklasPfister) uv run inspect eval inspect_evals/b3 ## 数学 - [AIME 2024: Problems from the American Invitational Mathematics Examination](src/inspect_evals/aime2024) 用于评估 AI 解决 2024 年 AIME(一项著名的高中数学竞赛)中具有挑战性的数学问题能力的基准测试。 贡献者: [@tamazgadaev](https://github.com/tamazgadaev) uv run inspect eval inspect_evals/aime2024 - [AIME 2025: Problems from the American Invitational Mathematics Examination](src/inspect_evals/aime2025) 用于评估 AI 解决 2025 年 AIME(一项著名的高中数学竞赛)中具有挑战性的数学问题能力的基准测试。 贡献者: [@jannalulu](https://github.com/jannalulu) uv run inspect eval inspect_evals/aime2025 - [AIME 2026: Problems from the American Invitational Mathematics Examination](src/inspect_evals/aime2026) 用于评估 AI 解决 2026 年 AIME(一项著名的高中数学竞赛)中具有挑战性的数学问题能力的基准测试。 贡献者: [@joeda](https://github.com/joeda) uv run inspect eval inspect_evals/aime2026 - [GSM8K: Grade School Math Word Problems](src/inspect_evals/gsm8k) 衡量语言模型解决适合小学数学的、现实的、语言丰富的数学应用题的有效性。 贡献者: [@jjallaire](https://github.com/jjallaire) uv run inspect eval inspect_evals/gsm8k - [MATH: Measuring Mathematical Problem Solving](src/inspect_evals/math) 包含 12,500 个具有挑战性的竞赛数学问题的数据集。演示了 fewshot prompting 和自定义评分器。注意:由于收到 The Art of Problem Solving 的 DMCA 通知,该数据集已被下架。 贡献者: [@xeon27](https://github.com/xeon27) uv run inspect eval inspect_evals/math - [MGSM: Multilingual Grade School Math](src/inspect_evals/mgsm) 通过将原始 GSM8K 数据集中的 250 个问题翻译成 10 种类型多样的语言来扩展该数据集。 贡献者: [@manifoldhiker](https://github.com/manifoldhiker) uv run inspect eval inspect_evals/mgsm - [MathVista: Visual Math Problem-Solving](src/inspect_evals/mathvista) 在涉及解释图表和图表等视觉元素的数学问题上测试 AI 模型,需要详细的视觉理解和逻辑推理。 贡献者: [@ShivMunagala](https://github.com/ShivMunagala) uv run inspect eval inspect_evals/mathvista ## 推理 - [ARC: AI2 Reasoning Challenge](src/inspect_evals/arc) 自然的、小学科学多项选择题(为人类测试编写)数据集。 贡献者: [@jjallaire](https://github.com/jjallaire) uv run inspect eval inspect_evals/arc_easy uv run inspect eval inspect_evals/arc_challenge - [BBH: Challenging BIG-Bench Tasks](src/inspect_evals/bbh) 在一套 23 个具有挑战性的 BIG-Bench 任务上测试 AI 模型,这些任务以前即使对于高级语言模型也很难解决。 贡献者: [@JoschkaCBraun](https://github.com/JoschkaCBraun) uv run inspect eval inspect_evals/bbh - [BIG-Bench Extra Hard](src/inspect_evals/bbeh) 推理能力数据集,用探测类似推理能力但难度显著增加的新任务替换 BIG-Bench-Hard 中的每个任务。 贡献者: [@jeqcho](https://github.com/jeqcho) uv run inspect eval inspect_evals/bbeh uv run inspect eval inspect_evals/bbeh_mini - [BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions](src/inspect_evals/boolq) 阅读理解数据集,查询复杂的、非事实性信息,并需要困难的类蕴涵推理才能解决。 贡献者: [@seddy-aisi](https://github.com/seddy-aisi) uv run inspect eval inspect_evals/boolq - [DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs](src/inspect_evals/drop) 评估阅读理解,模型必须解决问题中的引用(可能是多个输入位置),并对它们执行离散操作(如加法、计数或排序)。 贡献者: [@xeon27](https://github.com/xeon27) uv run inspect eval inspect_evals/drop - [HellaSwag: Commonsense Event Continuation](src/inspect_evals/hellaswag) 通过要求模型为给定的日常情况选择最可能的下一步或延续来测试模型的常识推理能力。 贡献者: [@jjallaire](https://github.com/jjallaire) uv run inspect eval inspect_evals/hellaswag - [IFEval: Instruction-Following Evaluation](src/inspect_evals/ifeval) 评估语言模型严格遵守详细指令的能力,例如编写具有特定字数或包含必需关键字的响应。 贡献者: [@adil-a](https://github.com/adil-a) uv run inspect eval inspect_evals/ifeval - [LingOly](src/inspect_evals/lingoly) 两个语言学推理基准测试: LingOly(语言学奥林匹克问题)是利用低资源语言的基准测试。 LingOly-TOO(带有模板化正字法混淆的语言学奥林匹克问题)是为对抗无推理回答而设计的基准测试。 贡献者: [@am-bean](https://github.com/am-bean), [@jkhouja](https://github.com/jkhouja) uv run inspect eval inspect_evals/lingoly uv run inspect eval inspect_evals/lingoly_too - [MMMU: Multimodal College-Level Understanding and Reasoning](src/inspect_evals/mmmu) 在具有挑战性的大学水平问题上评估多模态 AI 模型,涵盖多个学科,需要详细的视觉解释、深度推理以及多项选择和开放式回答能力。 贡献者: [@shaheenahmedc](https://github.com/shaheenahmedc) uv run inspect eval inspect_evals/mmmu_multiple_choice uv run inspect eval inspect_evals/mmmu_open - [MuSR: Testing the Limits of Chain-of-thought with Multistep Reasoning](src/inspect_evals/musr) 以自由文本叙事的形式评估多步软推理任务的模型。 贡献者: [@farrelmahaztra](https://github.com/farrelmahaztra) uv run inspect eval inspect_evals/musr - [Needle in a Haystack (NIAH): In-Context Retrieval Benchmark for Long Context LLMs](src/inspect_evals/niah) NIAH 通过测试模型从长上下文输入中提取事实信息的能力,评估长上下文 LLM 的上下文检索能力。 贡献者: [@owenparsons](https://github.com/owenparsons) uv run inspect eval inspect_evals/niah - [NoveltyBench: Evaluating Language Models for Humanlike Diversity](src/inspect_evals/novelty_bench) 评估语言模型如何在多个推理和生成任务中生成多样化、类人的响应。此评估评估 LLM 是否可以产生多样化的输出,而不是重复或统一的答案。 贡献者: [@iphan](https://github.com/iphan) uv run inspect eval inspect_evals/novelty_bench - [PAWS: Paraphrase Adversaries from Word Scrambling](src/inspect_evals/paws) 通过提供成对的句子(可以是或不是释义)来评估释义检测任务中的模型。 贡献者: [@meltemkenis](https://github.com/meltemkenis) uv run inspect eval inspect_evals/paws - [PIQA: Physical Commonsense Reasoning Test](src/inspect_evals/piqa) 通过简单的决策问题衡量模型应用有关物理对象和场景的实用日常常识推理的能力。 贡献者: [@seddy-aisi](https://github.com/seddy-aisi) uv run inspect eval inspect_evals/piqa - [RACE-H: A benchmark for testing reading comprehension and reasoning abilities of neural models](src/inspect_evals/race_h) 收集自 12 至 18 岁中国中学生英语考试的阅读理解任务。 贡献者: [@mdrpanwar](https://github.com/mdrpanwar) uv run inspect eval inspect_evals/race_h - [SQuAD: A Reading Comprehension Benchmark requiring reasoning over Wikipedia articles](src/inspect_evals/squad) 众包工作者在一组维基百科文章上提出的 100,000+ 个问题集,其中每个问题的答案是对应阅读段落中的一段文本。 贡献者: [@tknasir](https://github.com/tknasir) uv run inspect eval inspect_evals/squad - [VimGolf: Evaluating LLMs in Vim Editing Proficiency](src/inspect_evals/vimgolf_challenges) 评估 LLM 操作 Vim 编辑器和完成编辑挑战能力的基准测试。此基准测试通过关注特定于 Vim 的编辑能力与常见的 CUA 基准测试形成对比。 贡献者: [@james4ever0](https://github.com/james4ever0) uv run inspect eval inspect_evals/vimgolf_single_turn - [WINOGRANDE: An Adversarial Winograd Schema Challenge at Scale](src/inspect_evals/winogrande) 最初设计为 273 个专家制作的各种代词解析问题集,旨在使依赖选择偏好或词关联的统计模型无法解决。 贡献者: [@xeon27](https://github.com/xeon27) uv run inspect eval inspect_evals/winogrande - [WorldSense: Grounded Reasoning Benchmark](src/inspect_evals/worldsense) 在控制数据集偏差的同时衡量对合成世界描述的推理。包括三种问题类型(Infer、Compl、Consist)和两个等级(trivial、normal)。 贡献者: [@mjbroerman](https://github.com/mjbroerman) uv run inspect eval inspect_evals/worldsense - [∞Bench: Extending Long Context Evaluation Beyond 100K Tokens](src/inspect_evals/infinite_bench) LLM 基准测试,其平均数据长度超过 100K 个 token。包含跨越英语和中文不同领域的合成和现实任务。 贡献者: [@celiawaggoner](https://github.com/celiawaggoner) uv run inspect eval inspect_evals/infinite_bench_code_debug uv run inspect eval inspect_evals/infinite_bench_code_run uv run inspect eval inspect_evals/infinite_bench_kv_retrieval uv run inspect eval inspect_evals/infinite_bench_longbook_choice_eng uv run inspect eval inspect_evals/infinite_bench_longdialogue_qa_eng uv run inspect eval inspect_evals/infinite_bench_math_calc uv run inspect eval inspect_evals/infinite_bench_math_find uv run inspect eval inspect_evals/infinite_bench_number_string uv run inspect eval inspect_evals/infinite_bench_passkey ## 知识 - [AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models](src/inspect_evals/agieval) AGIEval 是一个以人为中心的基准测试,专门设计用于评估基础模型在与人类认知和解决问题相关的任务中的通用能力。 贡献者: [@bouromain](https://github.com/bouromain) uv run inspect eval inspect_evals/agie_aqua_rat uv run inspect eval inspect_evals/agie_logiqa_en uv run inspect eval inspect_evals/agie_lsat_ar uv run inspect eval inspect_evals/agie_lsat_lr uv run inspect eval inspect_evals/agie_lsat_rc uv run inspect eval inspect_evals/agie_math uv run inspect eval inspect_evals/agie_sat_en uv run inspect eval inspect_evals/agie_sat_en_without_passage uv run inspect eval inspect_evals/agie_sat_math - [AIR Bench: AI Risk Benchmark](src/inspect_evals/air_bench) 根据政府法规和公司政策得出的风险类别评估语言模型的安全基准测试。 贡献者: [@l1990790120](https://github.com/l1990790120) uv run inspect eval inspect_evals/air_bench - [ChemBench: Are large language models superhuman chemists?](src/inspect_evals/chembench) ChemBench 旨在揭示当前 Frontier 模型在化学科学应用中的局限性。它由从各种来源编译的 2786 个问答对组成。我们的语料库衡量了本科和研究生化学课程中大部分主题的推理、知识和直觉。它可用于评估任何可以返回文本的系统(即包括工具增强系统)。 贡献者: [@Esther-Guo](https://github.com/Esther-Guo) uv run inspect eval inspect_evals/chembench - [CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge](src/inspect_evals/commonsense_qa) 评估 AI 模型正确回答依赖基本常识知识和对世界理解的日常问题的能力。 贡献者: [@lauritowal](https://github.com/lauritowal) uv run inspect eval inspect_evals/commonsense_qa - [FrontierScience: Expert-Level Scientific Reasoning](src/inspect_evals/frontierscience) 评估 AI 在物理、化学和生物学方面的专家级科学推理能力。包含 160 个问题,具有两种评估格式:奥林匹克(100 个带有参考答案的样本)和研究(60 个带有评分细则的样本)。 贡献者: [@tommyly201](https://github.com/tommyly201), [@mnarayan](https://github.com/mnarayan) uv run inspect eval inspect_evals/frontierscience - [GPQA: Graduate-Level STEM Knowledge Challenge](src/inspect_evals/gpqa) 包含由生物学、物理学和化学领域专家创建的具有挑战性的多项选择题,旨在测试超出基本互联网搜索范围的高级科学理解。相应领域的博士级专家准确率达到 65%。 贡献者: [@jjallaire](https://github.com/jjallaire) uv run inspect eval inspect_evals/gpqa_diamond - [HealthBench: Evaluating Large Language Models Towards Improved Human Health](src/inspect_evals/healthbench) 一个全面的评估基准测试,旨在评估语言模型在各种医疗保健场景中的医疗能力。 贡献者: [@retroam](https://github.com/retroam) uv run inspect eval inspect_evals/healthbench uv run inspect eval inspect_evals/healthbench_hard uv run inspect eval inspect_evals/healthbench_consensus uv run inspect eval inspect_evals/healthbench_meta_eval - [Humanity's Last Exam](src/inspect_evals/hle) Humanity's Last Exam (HLE) 是人类知识前沿的多模态基准测试,旨在成为此类具有广泛学科覆盖的最后一个闭卷学术基准测试。Humanity's Last Exam 包含数十个学科的 3,000 个问题,包括数学、人文和自然科学。HLE 由全球主题专家开发,由适合自动评分的多项选择题和简答题组成。 贡献者: [@SasankYadati](https://github.com/SasankYadati) uv run inspect eval inspect_evals/hle - [LiveBench: A Challenging, Contamination-Free LLM Benchmark](src/inspect_evals/livebench) LiveBench 是一个在设计时考虑到测试集污染和客观评估的基准测试,通过定期发布新问题以及基于最近发布的数据集提出问题来实现。每个问题都有可验证的、客观的基准真相答案,允许在不使用 LLM 评判的情况下准确且自动地对难题进行评分。 贡献者: [@anaoaktree](https://github.com/anaoaktree) uv run inspect eval inspect_evals/livebench - [MMLU-Pro: Advanced Multitask Knowledge and Reasoning Evaluation](src/inspect_evals/mmlu_pro) 高级基准测试,测试许多学科的广泛知识和推理能力,具有挑战性问题和难度及复杂性增加的多项选择答案。 贡献者: [@xeon27](https://github.com/xeon27) uv run inspect eval inspect_evals/mmlu_pro - [MMLU: Measuring Massive Multitask Language Understanding](src/inspect_evals/mmlu) 在 57 个任务上评估模型,包括初等数学、美国历史、计算机科学、法律等。 贡献者: [@jjallaire](https://github.com/jjallaire), [@domdomegg](https://github.com/domdomegg) uv run inspect eval inspect_evals/mmlu_0_shot uv run inspect eval inspect_evals/mmlu_5_shot - [MedQA: Medical exam Q&A benchmark](src/inspect_evals/medqa) 包含从专业医疗委员会考试收集的问题的问答基准测试。仅包括数据集的英语子集(其中也包含普通话中文和台湾问题)。 贡献者: [@bunny-baxter](https://github.com/bunny-baxter), [@JasonBenn](https://github.com/JasonBenn) uv run inspect eval inspect_evals/medqa - [O-NET: A high-school student knowledge test](src/inspect_evals/onet) 来自普通国家教育考试 (O-NET) 的问题和答案,该考试由泰国国家教育考试服务研究所每年对 Mathayom 6(12 年级 / ISCED 3)学生进行。考试包含六个科目:英语、数学、科学、社会知识和泰语。有问题包括多项选择题和判断题。问题可以是英语或泰语。 贡献者: [@bact](https://github.com/bact) uv run inspect eval inspect_evals/onet_m6 - [Pre-Flight: Aviation Operations Knowledge Evaluation](src/inspect_evals/pre_flight) 测试模型对航空法规的理解,包括 ICAO 附件、飞行签派规则、飞行员程序和机场地面运营安全协议。 贡献者: [@alexbrooker](https://github.com/alexbrooker) uv run inspect eval inspect_evals/pre_flight - [PubMedQA: A Dataset for Biomedical Research Question Answering](src/inspect_evals/pubmedqa) 从 PubMed 摘要收集的生物医学问答 (QA) 数据集。 贡献者: [@MattFisher](https://github.com/MattFisher) uv run inspect eval inspect_evals/pubmedqa - [SOS BENCH: Benchmarking Safety Alignment on Scientific Knowledge](src/inspect_evals/sosbench) 基于法规、以危险为重点的基准测试,涵盖六个高风险科学领域:化学、生物学、医学、药理学、物理学和心理学。该基准测试包含 3,000 个源自现实世界法规和法律的提示,通过 LLM 辅助的进化管道系统性地扩展,引入了多样化、现实的滥用场景(例如,涉及高级化学公式的详细爆炸物合成说明)。 贡献者: [@Esther-Guo](https://github.com/Esther-Guo) uv run inspect eval inspect_evals/sosbench - [SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models](src/inspect_evals/sciknoweval) 科学知识评估基准的灵感来源于中国古代哲学“中庸”的深刻原则。该基准测试旨在根据 LLM 在“博学、审问、慎思、明辨、笃行”方面的熟练程度进行评估。这些维度中的每一个都为评估 LLM 处理科学知识的能力提供了独特的视角。 贡献者: [@Esther-Guo](https://github.com/Esther-Guo) uv run inspect eval inspect_evals/sciknoweval - [SimpleQA/SimpleQA: Measuring short-form factuality in large language models](src/inspect_evals/simpleqa) 评估语言模型回答简短事实性问题能力的基准测试。 贡献者: [@osc245](https://github.com/osc245), [@jeqcho](https://github.com/jeqcho) uv run inspect eval inspect_evals/simpleqa uv run inspect eval inspect_evals/simpleqa_verified - [TruthfulQA: Measuring How Models Mimic Human Falsehoods](src/inspect_evals/truthfulqa) 衡量语言模型在生成问题答案时是否诚实,使用一些人类因错误信念或误解而会错误回答的问题。 贡献者: [@seddy-aisi](https://github.com/seddy-aisi) uv run inspect eval inspect_evals/truthfulqa - [Uganda Cultural and Cognitive Benchmark (UCCB)](src/inspect_evals/uccb) 第一个全面的问答数据集,旨在评估大语言模型对乌干达在 24 个文化领域(包括教育、传统医学、媒体、经济、文学和社会规范)的多方面环境的文化理解和推理能力。 贡献者: [@katostevenmubiru](https://github.com/katostevenmubiru) uv run inspect eval inspect_evals/uccb - [XSTest: A benchmark for identifying exaggerated safety behaviours in LLM's](src/inspect_evals/xstest) 包含 250 个跨越十种提示类型的安全提示的数据集,校准良好的模型不应拒绝这些提示,以及 200 个作为对比的不安全提示,对于大多数应用程序,模型应该拒绝这些提示。 贡献者: [@NelsonG-C](https://github.com/NelsonG-C) uv run inspect eval inspect_evals/xstest ## 图谋 - [Agentic Misalignment: How LLMs could be insider threats](src/inspect_evals/agentic_misalignment) 在虚构的公司助手场景中引发不道德行为(最著名的是勒索),在该场景中,模型面临被替换的命运。 贡献者: [@bmillwood-aisi](https://github.com/bmillwood-aisi) uv run inspect eval inspect_evals/agentic_misalignment - [GDM Dangerous Capabilities: Self-proliferation](src/inspect_evals/gdm_self_proliferation) 来自 Google DeepMind 危险能力评估的十个现实世界启发的任务,评估自我增殖行为(例如,电子邮件设置、模型安装、Web Agent 设置、钱包操作)。支持端到端、里程碑和专家 best-of-N 模式。 贡献者: [@XkunW](https://github.com/XkunW), [@MariaIzobava](https://github.com/MariaIzobava), [@kohankhaki](https://github.com/kohankhaki) uv run inspect eval inspect_evals/gdm_sp01_e2e uv run inspect eval inspect_evals/gdm_sp02_e2e uv run inspect eval inspect_evals/gdm_sp03_e2e uv run inspect eval inspect_evals/gdm_sp04_e2e uv run inspect eval inspect_evals/gdm_sp05_e2e uv run inspect eval inspect_evals/gdm_sp07_e2e uv run inspect eval inspect_evals/gdm_sp08_e2e uv run inspect eval inspect_evals/gdm_sp09_e2e uv run inspect eval inspect_evals/gdm_sp10_e2e uv run inspect eval inspect_evals/gdm_sp12_e2e - [GDM Dangerous Capabilities: Self-reasoning](src/inspect_evals/gdm_self_reasoning) 测试 AI 推理其环境的能力。 贡献者: [@ZiyueWang25](https://github.com/ZiyueWang25), [@XkunW](https://github.com/XkunW) uv run inspect eval inspect_evals/gdm_self_reasoning_approved_directories uv run inspect eval inspect_evals/gdm_self_reasoning_calculator_improvement uv run inspect eval inspect_evals/gdm_self_reasoning_context_length_mod_instrumental_only uv run inspect eval inspect_evals/gdm_self_reasoning_context_length_mod_irreversibility_only uv run inspect eval inspect_evals/gdm_self_reasoning_database_tool uv run inspect eval inspect_evals/gdm_self_reasoning_latency_calculator uv run inspect eval inspect_evals/gdm_self_reasoning_max_messages_calculator uv run inspect eval inspect_evals/gdm_self_reasoning_max_tokens uv run inspect eval inspect_evals/gdm_self_reasoning_oversight_frequency uv run inspect eval inspect_evals/gdm_self_reasoning_read_logs uv run inspect eval inspect_evals/gdm_self_reasoning_turn_off_filters - [GDM Dangerous Capabilities: Stealth](src/inspect_evals/gdm_stealth) 测试 AI 推理和规避监督的能力。 贡献者: [@ZiyueWang25](https://github.com/ZiyueWang25) uv run inspect eval inspect_evals/gdm_classifier_evasion uv run inspect eval inspect_evals/gdm_cover_your_tracks uv run inspect eval inspect_evals/gdm_oversight_pattern uv run inspect eval inspect_evals/gdm_strategic_rule_breaking - [InstrumentalEval - Evaluating the Paperclip Maximizer: Are RL-Based Language Models More Likely to Pursue Instrumental Goals?](src/inspect_evals/instrumentaleval) 旨在检测模型响应中工具性趋同行为(例如,自我保护、资源获取、权力寻求、战略欺骗)的评估,使用基于评分细则的 LLM 评分器。该基准测试测试 AI 系统是否表现出在广泛目标中具有工具性有用的行为,这可能表明令人担忧的战略推理模式。 贡献者: [@horvgbor](https://github.com/horvgbor) uv run inspect eval inspect_evals/instrumentaleval - [SAD: Situational Awareness Dataset](src/inspect_evals/sad) 评估 LLM 的情境感知——对自己及其处境的了解——通过行为测试,包括识别生成的文本、预测行为和遵循自我感知的指令。当前实现包括包含 16 个任务中 5 个的 SAD-mini。 贡献者: [@HugoSave](https://github.com/HugoSave) uv run inspect eval inspect_evals/sad_stages_full uv run inspect eval inspect_evals/sad_stages_oversight uv run inspect eval inspect_evals/sad_influence uv run inspect eval inspect_evals/sad_facts_llms uv run inspect eval inspect_evals/sad_facts_human_defaults ## 偏见 - [BBQ: Bias Benchmark for Question Answering](src/inspect_evals/bbq) 用于跨多个社会维度评估问答模型中偏见的数据集。 贡献者: [@harshraj172](https://github.com/harshraj172), [@shubhobm](https://github.com/shubhobm) uv run inspect eval inspect_evals/bbq - [BOLD: Bias in Open-ended Language Generation Dataset](src/inspect_evals/bold) 用于衡量开放式文本生成中公平性的数据集,涵盖五个领域:职业、性别、种族、宗教意识形态和政治意识形态。 贡献者: [@harshraj172](https://github.com/harshraj172), [@shubhobm](https://github.com/shubhobm) uv run inspect eval inspect_evals/bold ## 多模态 - [DocVQA: A Dataset for VQA on Document Images](src/inspect_evals/docvqa) DocVQA 是一个视觉问答基准测试,包含涵盖 12,000+ 文档图像的 50,000 个问题。此实现解决并评分“validation”拆分。 贡献者: [@evanmiller-anthropic](https://github.com/evanmiller-anthropic) uv run inspect eval inspect_evals/docvqa - [MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models](src/inspect_evals/mmiu) 旨在评估大型视觉语言模型 (LVLM) 在广泛的多图像任务中的综合数据集。该数据集包含 7 种类型的多图像关系、52 个任务、77K 图像和 11K 精心策划的多项选择题。 贡献者: [@Esther-Guo](https://github.com/Esther-Guo) uv run inspect eval inspect_evals/mmiu - [V*Bench: A Visual QA Benchmark with Detailed High-resolution Images](src/inspect_evals/vstar_bench) V*Bench 是一个视觉问答基准测试,评估 MLLM 处理高分辨率和视觉拥挤图像以查找并关注小细节的能力。 贡献者: [@bienehito](https://github.com/bienehito) uv run inspect eval inspect_evals/vstar_bench_attribute_recognition uv run inspect eval inspect_evals/vstar_bench_spatial_relationship_reasoning - [ZeroBench](src/inspect_evals/zerobench) 轻量级的视觉推理基准测试,具有以下特点:(1) 具有挑战性,(2) 轻量级,(3) 多样化,(4) 高质量。 贡献者: [@ItsTania](https://github.com/ItsTania) uv run inspect eval inspect_evals/Zerobench uv run inspect eval inspect_evals/Zerobench Subquestions ## 人格 - [Personality](src/inspect_evals/personality) 由可应用于 LLM 的多项人格测试组成的评估套件。 其主要目标有两个: 1. 评估模型的默认人格:它在没有特定提示的情况下自然表现出的人格。 2. 评估模型是否可以体现指定的人格:当被提示或引导时,它如何有效地采用某些人格特质。 贡献者: [@guiem](https://github.com/guiem) uv run inspect eval inspect_evals/personality_BFI uv run inspect eval inspect_evals/personality_TRAIT ## 写作 - [WritingBench: A Comprehensive Benchmark for Generative Writing](src/inspect_evals/writingbench) 旨在评估大型语言模型在各种写作任务中能力的综合评估基准测试。该基准测试根据特定领域的标准,通过多维评分评估模型在各种写作领域的能力,包括学术论文、商业文档、创意写作和技术文档。 贡献者: [@jtv199](https://github.com/jtv199) uv run inspect eval inspect_evals/writingbench
标签:AI安全, AI治理, Apex, Arcadia Impact, Chat Copilot, DLL 劫持, DNS解析, Inspect AI, Kubernetes 安全, LLM评估, Ollama, Python, UK AISI, 人工智能, 凭据扫描, 向量研究所, 大语言模型, 开源项目, 无后门, 机器学习, 模型评测, 模型鲁棒性, 测试框架, 深度学习, 用户模式Hook绕过, 社区贡献, 科研工具, 英国AI安全研究所, 请求拦截, 逆向工具