pinchbench/skill
GitHub: pinchbench/skill
PinchBench 是一套真实世界基准测试框架,用于评估 LLM 作为 OpenClaw 编程 agent 时的工具使用、多步推理和实际任务完成能力。
Stars: 1230 | Forks: 140
# 🦀 PinchBench
**针对 AI 编程 agent 的真实世界基准测试**
[](https://pinchbench.com)
[](LICENSE)

PinchBench 旨在衡量 LLM 模型作为 [OpenClaw](https://github.com/openclaw/openclaw) agent “大脑”时的表现。我们不使用合成测试,而是向 agent 抛出真实任务:安排会议、编写代码、分类邮件、研究课题以及管理文件。
测试结果会收集在 **[pinchbench.com](https://pinchbench.com)** 的公开排行榜上。

## 为什么选择 PinchBench?
大多数 LLM 基准测试只测试了孤立的能力。而 PinchBench 测试的是编程 agent 真正关键的表现:
- **工具使用** — 模型能否使用正确的参数调用正确的工具?
- **多步推理** — 它能否将一系列动作串联起来以完成复杂任务?
- **真实世界的混乱状况** — 它能否处理模糊的指令和不完整的信息?
- **实际结果** — 它是否真正创建了文件、发送了邮件或安排了会议?
## 快速开始
```
# Clone 该 skill
git clone https://github.com/pinchbench/skill.git
cd skill
# 使用你选择的 model 运行 benchmarks
./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4
# 或者运行特定 tasks
./scripts/run.sh --model openrouter/openai/gpt-4o --suite task_calendar,task_stock
```
**环境要求:**
- Python 3.10+
- [uv](https://docs.astral.sh/uv/) 包管理器
- 一个正在运行的 OpenClaw 实例
## 测试内容
PinchBench 包含横跨真实世界类别的 53 项任务:
| 类别 | 任务 | 测试范围 |
| ---------------- | ----------------------------- | ---------------------------------------- |
| **生产力** | 日历、每日总结 | 事件创建、时间解析、日程安排 |
| **研究** | 股票价格、会议、市场 | 网络搜索、数据提取、信息综合 |
| **写作** | 博客文章、电子邮件、拟人化 | 内容生成、语气把控、格式排版 |
| **编程** | 天气脚本、文件结构 | 代码生成、文件操作 |
| **分析** | 电子表格、PDF、文档 | 数据处理、内容摘要 |
| **电子邮件** | 分类、搜索 | 收件箱管理、过滤 |
| **记忆** | 上下文检索、知识管理 | 长期记忆、回溯 |
| **技能** | ClawHub、技能发现 | OpenClaw 生态集成 |
每项任务均会通过自动化方式、LLM 评判,或两者结合来进行打分 —— 从而确保评估既客观又细致入微。
## 提交结果
若要将您的结果展示在排行榜上:
```
# 注册以获取 API token(一次性)
./scripts/run.sh --register
# 运行 benchmark — 结果将使用你的 token 自动上传
./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4
```
如果您只想要本地结果,可以使用 `--no-upload` 跳过上传。
### 官方结果
若要提交官方运行结果(在排行榜上会有特殊标记):
```
# 使用 environment variable
export PINCHBENCH_OFFICIAL_KEY=your_official_key
./scripts/run.sh --model anthropic/claude-sonnet-4
# 使用 command line flag
./scripts/run.sh --model anthropic/claude-sonnet-4 --official-key your_official_key
```
## 命令参考
| 标志 | 描述 |
| ------------------------- | ----------------------------------------------------------------------------- |
| `--model MODEL` | 要测试的模型(例如 `openrouter/anthropic/claude-sonnet-4`) |
| `--judge MODEL` | 用于 LLM 评分的评判模型;设置后可直接调用 API(见下文) |
| `--suite SUITE` | `all`、`automated-only` 或逗号分隔的任务 ID |
| `--runs N` | 每个任务的运行次数,用于计算平均值 |
| `--timeout-multiplier N` | 为较慢的模型调整超时时间 |
| `--thinking LEVEL` | 推理深度:`off`、`minimal`、`low`、`medium`、`high`、`xhigh`、`adaptive` |
| `--output-dir DIR` | 结果保存路径(默认:`results/`) |
| `--no-upload` | 跳过上传至排行榜 |
| `--register` | 申请用于提交的 API token |
| `--upload FILE` | 上传之前的 JSON 结果文件 |
| `--official-key KEY` | 将提交标记为官方(或使用 `PINCHBENCH_OFFICIAL_KEY` 环境变量) |
### 评判
默认情况下(未添加 `--judge` 标志时),LLM 评判会作为 OpenClaw agent 会话运行。当指定了 `--judge` 时,它会直接调用模型 API,从而绕过 OpenClaw 的性格注入。
```
# 默认:OpenClaw agent session(无需 --judge)
./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4
# 通过 OpenRouter 直接访问 API
./scripts/run.sh --model openai/gpt-4o --judge openrouter/anthropic/claude-sonnet-4-5
# 通过 Kilo Gateway 直接访问 API
./scripts/run.sh --model openai/gpt-4o --judge kilo/anthropic/claude-sonnet-4-5
# 通过 Anthropic 直接访问 API
./scripts/run.sh --model openai/gpt-4o --judge anthropic/claude-sonnet-4-5-20250514
# 通过 OpenAI 直接访问 API
./scripts/run.sh --model openai/gpt-4o --judge openai/gpt-4o
# Headless Claude CLI
./scripts/run.sh --model openai/gpt-4o --judge claude
```
所需环境变量:根据评判模型的前缀,配置 `OPENROUTER_API_KEY`、`KILO_API_KEY`、`ANTHROPIC_API_KEY` 或 `OPENAI_API_KEY`。
## 记录归档
会话记录会与结果 JSON 一起自动保存到 `results/{run_id}_transcripts/` 目录中。每个任务的完整 agent 对话都会以 JSONL 文件的形式保留(例如 `task_calendar.jsonl`),以便进行运行后分析。
## 链接
- **排行榜:** [pinchbench.com](https://pinchbench.com)
- **OpenClaw:** [github.com/openclaw/openclaw](https://github.com/openclaw/openclaw)
- **问题反馈:** [github.com/pinchbench/skill/issues](https://github.com/pinchbench/skill/issues)
## 许可证
MIT — 详情请参阅 [LICENSE](LICENSE)。
_ Claw-some 的 AI agent 测试_ 🦞
标签:AI编程助手, DLL 劫持, Python, Rust, 人工智能, 可视化界面, 大语言模型, 无后门, 用户模式Hook绕过, 网络流量审计, 逆向工具