openai/frontier-evals

GitHub: openai/frontier-evals

OpenAI 开源的前沿模型评估代码框架,提供多个标准化基准测试套件用于衡量前沿 AI 模型的综合能力。

Stars: 1220 | Forks: 162

# 前沿模型评估 用于衡量前沿模型能力的评估代码。 - [PaperBench](./project/paperbench):端到端复现最先进的 AI 论文。[论文](https://arxiv.org/abs/2504.01848) | [博客](https://openai.com/index/paperbench) - [SWE-Lancer](./project/swelancer):带有端到端测试的真实自由职业软件工程任务。[论文](https://arxiv.org/abs/2502.12115) | [博客](https://openai.com/index/swe-lancer) - [EVMbench](./project/evmbench):智能合约安全任务。[论文](https://cdn.openai.com/evmbench/evmbench.pdf) | [博客](https://openai.com/index/introducing-evmbench/) ## 用法 ### 环境要求 我们使用 [`uv`](https://github.com/astral-sh/uv) 管理环境。安装一次 `uv` 后,在目标项目目录下运行 `uv sync`(或 `uv pip install -r ...`),即可根据已提交的 `uv.lock` 创建其虚拟环境。 ### 运行评估 每个评估目录都记录了如何复现运行、配置模型和解释结果。请先阅读该套件的 `README.md`,然后查阅 `scripts/` 或 `runtime_*/` 目录下的任何脚本以了解编排细节。如有疑问: 1. `cd` 进入评估目录。 2. 运行 `uv sync` 安装依赖。 3. 遵循 `README.md` 中的本地说明。 ### 目录结构 ``` . ├── pyproject.toml # Shared tooling configuration (Ruff, Black, etc.) └── project/ ├── common/ # Shared libraries ├── evmbench/ # EVMBench eval ├── paperbench/ # PaperBench eval └── swelancer/ # SWE-Lancer eval ``` 每个评估目录都是其独立的隔离项目,包含 `README.md`、`pyproject.toml` 和 `uv.lock`。 ### 开发工作流 - 使用 `uv` 为正在开发的项目创建或激活环境。以 PaperBench 为例: - `cd project/paperbench` - `uv sync` - `uv run pytest` - 代码风格和 linting 使用 Ruff(在 `pyproject.toml` 和 `project/common/tooling/ruff_autofix_minimal.toml` 中包含 autofix 配置)和 Black。运行 `uv run ruff check --fix`,或者在可用时使用提供的 Poe/`make` 任务。 - 共享工具位于 `project/common` 下;对该目录的更改可能会影响多个评估。如果创建了新的共享子包,请提升相关的可编辑依赖版本。
标签:人工智能, 代码测试, 大模型评估, 安全规则引擎, 智能合约安全, 用户模式Hook绕过, 逆向工具