openai/frontier-evals

GitHub: openai/frontier-evals

OpenAI 开源的前沿模型评估代码框架，提供多个标准化基准测试套件用于衡量前沿 AI 模型的综合能力。

Stars: 1265 | Forks: 174

# 前沿模型评估用于衡量前沿模型能力的评估代码。 - [PaperBench](./project/paperbench)：端到端复现最先进的 AI 论文。[论文](https://arxiv.org/abs/2504.01848) | [博客](https://openai.com/index/paperbench) - [SWE-Lancer](./project/swelancer)：带有端到端测试的真实自由职业软件工程任务。[论文](https://arxiv.org/abs/2502.12115) | [博客](https://openai.com/index/swe-lancer) - [EVMbench](./project/evmbench)：智能合约安全任务。[论文](https://cdn.openai.com/evmbench/evmbench.pdf) | [博客](https://openai.com/index/introducing-evmbench/) ## 用法 ### 环境要求我们使用 [`uv`](https://github.com/astral-sh/uv) 管理环境。安装一次 `uv` 后，在目标项目目录下运行 `uv sync`（或 `uv pip install -r ...`），即可根据已提交的 `uv.lock` 创建其虚拟环境。 ### 运行评估每个评估目录都记录了如何复现运行、配置模型和解释结果。请先阅读该套件的 `README.md`，然后查阅 `scripts/` 或 `runtime_*/` 目录下的任何脚本以了解编排细节。如有疑问： 1. `cd` 进入评估目录。 2. 运行 `uv sync` 安装依赖。 3. 遵循 `README.md` 中的本地说明。 ### 目录结构 ``` . ├── pyproject.toml # Shared tooling configuration (Ruff, Black, etc.) └── project/ ├── common/ # Shared libraries ├── evmbench/ # EVMBench eval ├── paperbench/ # PaperBench eval └── swelancer/ # SWE-Lancer eval ``` 每个评估目录都是其独立的隔离项目，包含 `README.md`、`pyproject.toml` 和 `uv.lock`。 ### 开发工作流 - 使用 `uv` 为正在开发的项目创建或激活环境。以 PaperBench 为例： - `cd project/paperbench` - `uv sync` - `uv run pytest` - 代码风格和 linting 使用 Ruff（在 `pyproject.toml` 和 `project/common/tooling/ruff_autofix_minimal.toml` 中包含 autofix 配置）和 Black。运行 `uv run ruff check --fix`，或者在可用时使用提供的 Poe/`make` 任务。 - 共享工具位于 `project/common` 下；对该目录的更改可能会影响多个评估。如果创建了新的共享子包，请提升相关的可编辑依赖版本。

标签：人工智能, 代码测试, 大模型评估, 安全规则引擎, 智能合约安全, 用户模式Hook绕过, 逆向工具