pinchbench/skill

GitHub: pinchbench/skill

PinchBench 是一套真实世界基准测试框架,用于评估 LLM 作为 OpenClaw 编程 agent 时的工具使用、多步推理和实际任务完成能力。

Stars: 1230 | Forks: 140

# 🦀 PinchBench **针对 AI 编程 agent 的真实世界基准测试** [![排行榜](https://img.shields.io/badge/leaderboard-pinchbench.com-blue)](https://pinchbench.com) [![许可证](https://img.shields.io/badge/license-MIT-green)](LICENSE) ![Tasks](https://img.shields.io/badge/tasks-53-orange) PinchBench 旨在衡量 LLM 模型作为 [OpenClaw](https://github.com/openclaw/openclaw) agent “大脑”时的表现。我们不使用合成测试,而是向 agent 抛出真实任务:安排会议、编写代码、分类邮件、研究课题以及管理文件。 测试结果会收集在 **[pinchbench.com](https://pinchbench.com)** 的公开排行榜上。 ![PinchBench](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/f21ef04c1a185331.png) ## 为什么选择 PinchBench? 大多数 LLM 基准测试只测试了孤立的能力。而 PinchBench 测试的是编程 agent 真正关键的表现: - **工具使用** — 模型能否使用正确的参数调用正确的工具? - **多步推理** — 它能否将一系列动作串联起来以完成复杂任务? - **真实世界的混乱状况** — 它能否处理模糊的指令和不完整的信息? - **实际结果** — 它是否真正创建了文件、发送了邮件或安排了会议? ## 快速开始 ``` # Clone 该 skill git clone https://github.com/pinchbench/skill.git cd skill # 使用你选择的 model 运行 benchmarks ./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4 # 或者运行特定 tasks ./scripts/run.sh --model openrouter/openai/gpt-4o --suite task_calendar,task_stock ``` **环境要求:** - Python 3.10+ - [uv](https://docs.astral.sh/uv/) 包管理器 - 一个正在运行的 OpenClaw 实例 ## 测试内容 PinchBench 包含横跨真实世界类别的 53 项任务: | 类别 | 任务 | 测试范围 | | ---------------- | ----------------------------- | ---------------------------------------- | | **生产力** | 日历、每日总结 | 事件创建、时间解析、日程安排 | | **研究** | 股票价格、会议、市场 | 网络搜索、数据提取、信息综合 | | **写作** | 博客文章、电子邮件、拟人化 | 内容生成、语气把控、格式排版 | | **编程** | 天气脚本、文件结构 | 代码生成、文件操作 | | **分析** | 电子表格、PDF、文档 | 数据处理、内容摘要 | | **电子邮件** | 分类、搜索 | 收件箱管理、过滤 | | **记忆** | 上下文检索、知识管理 | 长期记忆、回溯 | | **技能** | ClawHub、技能发现 | OpenClaw 生态集成 | 每项任务均会通过自动化方式、LLM 评判,或两者结合来进行打分 —— 从而确保评估既客观又细致入微。 ## 提交结果 若要将您的结果展示在排行榜上: ``` # 注册以获取 API token(一次性) ./scripts/run.sh --register # 运行 benchmark — 结果将使用你的 token 自动上传 ./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4 ``` 如果您只想要本地结果,可以使用 `--no-upload` 跳过上传。 ### 官方结果 若要提交官方运行结果(在排行榜上会有特殊标记): ``` # 使用 environment variable export PINCHBENCH_OFFICIAL_KEY=your_official_key ./scripts/run.sh --model anthropic/claude-sonnet-4 # 使用 command line flag ./scripts/run.sh --model anthropic/claude-sonnet-4 --official-key your_official_key ``` ## 命令参考 | 标志 | 描述 | | ------------------------- | ----------------------------------------------------------------------------- | | `--model MODEL` | 要测试的模型(例如 `openrouter/anthropic/claude-sonnet-4`) | | `--judge MODEL` | 用于 LLM 评分的评判模型;设置后可直接调用 API(见下文) | | `--suite SUITE` | `all`、`automated-only` 或逗号分隔的任务 ID | | `--runs N` | 每个任务的运行次数,用于计算平均值 | | `--timeout-multiplier N` | 为较慢的模型调整超时时间 | | `--thinking LEVEL` | 推理深度:`off`、`minimal`、`low`、`medium`、`high`、`xhigh`、`adaptive` | | `--output-dir DIR` | 结果保存路径(默认:`results/`) | | `--no-upload` | 跳过上传至排行榜 | | `--register` | 申请用于提交的 API token | | `--upload FILE` | 上传之前的 JSON 结果文件 | | `--official-key KEY` | 将提交标记为官方(或使用 `PINCHBENCH_OFFICIAL_KEY` 环境变量) | ### 评判 默认情况下(未添加 `--judge` 标志时),LLM 评判会作为 OpenClaw agent 会话运行。当指定了 `--judge` 时,它会直接调用模型 API,从而绕过 OpenClaw 的性格注入。 ``` # 默认:OpenClaw agent session(无需 --judge) ./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4 # 通过 OpenRouter 直接访问 API ./scripts/run.sh --model openai/gpt-4o --judge openrouter/anthropic/claude-sonnet-4-5 # 通过 Kilo Gateway 直接访问 API ./scripts/run.sh --model openai/gpt-4o --judge kilo/anthropic/claude-sonnet-4-5 # 通过 Anthropic 直接访问 API ./scripts/run.sh --model openai/gpt-4o --judge anthropic/claude-sonnet-4-5-20250514 # 通过 OpenAI 直接访问 API ./scripts/run.sh --model openai/gpt-4o --judge openai/gpt-4o # Headless Claude CLI ./scripts/run.sh --model openai/gpt-4o --judge claude ``` 所需环境变量:根据评判模型的前缀,配置 `OPENROUTER_API_KEY`、`KILO_API_KEY`、`ANTHROPIC_API_KEY` 或 `OPENAI_API_KEY`。 ## 记录归档 会话记录会与结果 JSON 一起自动保存到 `results/{run_id}_transcripts/` 目录中。每个任务的完整 agent 对话都会以 JSONL 文件的形式保留(例如 `task_calendar.jsonl`),以便进行运行后分析。 ## 链接 - **排行榜:** [pinchbench.com](https://pinchbench.com) - **OpenClaw:** [github.com/openclaw/openclaw](https://github.com/openclaw/openclaw) - **问题反馈:** [github.com/pinchbench/skill/issues](https://github.com/pinchbench/skill/issues) ## 许可证 MIT — 详情请参阅 [LICENSE](LICENSE)。 _ Claw-some 的 AI agent 测试_ 🦞
标签:AI编程助手, DLL 劫持, Python, Rust, 人工智能, 可视化界面, 大语言模型, 无后门, 用户模式Hook绕过, 网络流量审计, 逆向工具