openai/frontier-evals
GitHub: openai/frontier-evals
OpenAI 开源的前沿模型评估代码框架,提供多个标准化基准测试套件用于衡量前沿 AI 模型的综合能力。
Stars: 1220 | Forks: 162
# 前沿模型评估
用于衡量前沿模型能力的评估代码。
- [PaperBench](./project/paperbench):端到端复现最先进的 AI 论文。[论文](https://arxiv.org/abs/2504.01848) | [博客](https://openai.com/index/paperbench)
- [SWE-Lancer](./project/swelancer):带有端到端测试的真实自由职业软件工程任务。[论文](https://arxiv.org/abs/2502.12115) | [博客](https://openai.com/index/swe-lancer)
- [EVMbench](./project/evmbench):智能合约安全任务。[论文](https://cdn.openai.com/evmbench/evmbench.pdf) | [博客](https://openai.com/index/introducing-evmbench/)
## 用法
### 环境要求
我们使用 [`uv`](https://github.com/astral-sh/uv) 管理环境。安装一次 `uv` 后,在目标项目目录下运行 `uv sync`(或 `uv pip install -r ...`),即可根据已提交的 `uv.lock` 创建其虚拟环境。
### 运行评估
每个评估目录都记录了如何复现运行、配置模型和解释结果。请先阅读该套件的 `README.md`,然后查阅 `scripts/` 或 `runtime_*/` 目录下的任何脚本以了解编排细节。如有疑问:
1. `cd` 进入评估目录。
2. 运行 `uv sync` 安装依赖。
3. 遵循 `README.md` 中的本地说明。
### 目录结构
```
.
├── pyproject.toml # Shared tooling configuration (Ruff, Black, etc.)
└── project/
├── common/ # Shared libraries
├── evmbench/ # EVMBench eval
├── paperbench/ # PaperBench eval
└── swelancer/ # SWE-Lancer eval
```
每个评估目录都是其独立的隔离项目,包含 `README.md`、`pyproject.toml` 和 `uv.lock`。
### 开发工作流
- 使用 `uv` 为正在开发的项目创建或激活环境。以 PaperBench 为例:
- `cd project/paperbench`
- `uv sync`
- `uv run pytest`
- 代码风格和 linting 使用 Ruff(在 `pyproject.toml` 和 `project/common/tooling/ruff_autofix_minimal.toml` 中包含 autofix 配置)和 Black。运行 `uv run ruff check --fix`,或者在可用时使用提供的 Poe/`make` 任务。
- 共享工具位于 `project/common` 下;对该目录的更改可能会影响多个评估。如果创建了新的共享子包,请提升相关的可编辑依赖版本。
标签:人工智能, 代码测试, 大模型评估, 安全规则引擎, 智能合约安全, 用户模式Hook绕过, 逆向工具