joemunene-by/cyberbench
GitHub: joemunene-by/cyberbench
一个面向大语言模型的网络安全推理开放基准测试框架,提供可复现的评估与排名。
Stars: 0 | Forks: 0
# CyberBench
**用于评估大语言模型网络安全推理能力的开放、可复现基准测试。**
通过一系列结构化的安全任务,运行任意模型(OpenAI、Anthropic、Ollama、本地模型等),并生成排名化的 Markdown 排行榜。任务文件为 YAML 格式,评分逻辑透明,且整个流程可通过一条命令完成。



## 为什么需要 CyberBench
现有的 LLM 基准测试(MMLU、HELM、MT-Bench)几乎未覆盖安全领域。相关的要么是厂商独占(CyberSecEval),要么范围狭窄(SecQA),要么是闭源的。CyberBench 具备以下特点:
- **开放性**:任务以纯 YAML 形式存在,评分代码简洁清晰。
- **可复现性**:运行 `cyberbench run --model X` 会生成 JSON 格式的运行记录文件,并与仓库一同提交。任何人都可以验证或扩展。
- **可扩展性**:添加一个任务只需编写一个 YAML 文件;添加一个后端只需约 30 行代码。
- **多类别**:涵盖 CVE 分类、安全代码审查、检测规则生成等,未来还将支持更多类别。
## 评分内容
| 类别 | 任务类型 | 评分器 | 种子任务 |
| --- | --- | --- | --- |
| `cve_triage` | 多选题形式的 CWE / 漏洞推理 | `mc_exact` | 5 |
| `code_review` | 对代码片段进行自由形式的漏洞审查 | `rubric_keyword`(加权短语匹配) | 5 |
| `detection_rule` | 为给定攻击场景生成 SIGMA 规则 | `sigma_structural`(YAML 结构、字段与域检查) | 5 |
**v0.1 版本包含 15 个手工挑选的种子任务。** 该框架是产品;任务库会随着社区贡献不断增长(详见下文)。
## 快速开始
```
git clone https://github.com/joemunene-by/cyberbench.git
cd cyberbench
pip install -e ".[all]" # pulls openai + anthropic; drop [all] to skip
# 使用内置回声后端进行冒烟测试(无需 API 密钥)
cyberbench run --model echo
cyberbench report --print
```
### 运行真实模型
```
# OpenAI(需要 OPENAI_API_KEY)
cyberbench run --model openai:gpt-4o-mini
# Anthropic(需要 ANTHROPIC_API_KEY)
cyberbench run --model anthropic:claude-sonnet-4-6
# 本地 Ollama(需要运行在 :11434)
cyberbench run --model ollama:llama3
# 仅一个类别
cyberbench run --model openai:gpt-4o-mini --category detection_rule
```
每次运行会生成 `leaderboard/标签:AI风险缓解, CVE分类, cybersecurity reasoning, LLM benchmark, Python, SIGMA规则, YAML任务, 代码审查, 可扩展框架, 可重现基准, 多后端, 多类别安全, 大模型评估, 密钥泄露防护, 开源基准, 排行榜, 推理评测, 无后门, 机器学习安全, 检测规则生成, 社区贡献, 结构化任务, 网络安全, 逆向工具, 隐私保护