nicky-quist/llm-cybersecurity-benchmark
GitHub: nicky-quist/llm-cybersecurity-benchmark
该项目通过 pairwise 比较对 LLM 在网络安全 SOC 任务上的表现进行基准评估,解决模型选型与任务适配问题。
Stars: 1 | Forks: 0
# 针对网络安全 SOC 任务的 LLM 评估
使用 **Handshake AI Versus** pairwise 比较方法,对不同大型语言模型在网络安全和 SOC 相关任务上的表现进行基准测试。
## 项目目标
本项目评估不同 LLM 在 SOC 和安全工程工作流程中涉及的技术任务上的表现,包括:
- MITRE ATT&CK 解释
- SOC 检测指导
- 事件调查
- 检测工程
- Python 脚本编写
- 威胁情报概念
- 网络异常检测
- 幻觉抵抗力
- 云和身份安全工作流程
- 安全自动化与事件沟通
与其宣称某个模型全面最优,本项目旨在探索 **不同模型在不同网络安全任务类型上的表现差异**。
## 方法论
- 平台:Handshake AI Versus
- 评估设计:模型 pairwise 比较
- 提示数量:20
- 测试领域:
- 网络安全知识
- SOC 检测与应急响应
- 检测工程
- 编码
- 推理与规划
- 幻觉处理
- 云/身份/网络安全
- 安全运营策略
每项比较从以下方面综合评判:
- 技术正确性
- 完整性
- 操作实用性
- 清晰度
- 对 SOC 工作流程的现实性
- 相关场景下的幻觉抵抗力
## 最终结果
### 模型获胜次数
| 模型 | 获胜次数 |
|---|---:|
| Gemini-2.5-Pro | 4 |
| Gemini-3.1-Pro-Preview | 4 |
| GPT-4.1-Mini | 4 |
| GPT-5.2 | 3 |
| Gemini-2.5-Flash-Lite | 2 |
| GPT-5.2-High | 2 |
| Gemini-3-Flash-Preview | 1 |
### 厂商获胜次数
| 厂商 | 获胜次数 |
|---|---:|
| Google | 11 |
| OpenAI | 9 |
### 关键结论
- 扩大测试范围后,**仍无单一模型在所有类别中占据主导**。
- 表现最优的模型高度集中,有三款模型并列以 4 次获胜位居第一。
- 本轮测试中,Google 模型总体领先(11/20),OpenAI 模型保持竞争力(9/20)。
- 结果继续表明模型选择应 **针对具体任务**(例如:叙事性深度检测 vs 简洁编码/分诊输出质量)。
## 仓库结构
```
llm-cybersecurity-benchmark/
├── README.md
├── dashboard/
│ └── index.html
├── data/
│ ├── prompt_results.csv
│ ├── model_wins.csv
│ └── vendor_wins.csv
├── analysis/
│ └── benchmark_analysis.ipynb
└── visualizations/
├── wins_by_model.png
├── wins_by_vendor.png
└── winner_by_prompt.png
```
## 交互式仪表板功能
仪表板(`dashboard/index.html`)现已包含:
- 提示数量、厂商获胜次数、模型覆盖率和顶级模型平局的 KPI 卡片
- 双计分板(厂商获胜次数 + 获胜最多的顶级模型)
- 类别标签、全文搜索和可排序的提示结果行
- 每个提示的推理详情可展开/收起
- 带有获胜/失败/胜率统计的模型亮点卡片
- 展示重复配对结果的面对面 matchup 汇总
在浏览器中打开 `dashboard/index.html` 以探索完整的交互式视图。
## 提示集
完整的提示集存储在 `data/prompt_results.csv`(共 20 行)。
## 局限性
- 样本量仍小于生产级基准测试套件。
- Pairwise 测试方式意味着并非每款模型都与其他所有模型进行同等测试。
- 评估由人工引导,而非使用严格的数值评分标准。
- 提示措辞和选定的模型配对可能影响结果。
## 为什么这个项目很重要
对于安全团队而言,LLM 的采用不仅仅是选择“最佳总体模型”,而是 **适用性匹配**:
- 哪款模型最能解释 ATT&CK 技术?
- 哪款模型提供最现实的 SOC 工作流程指导?
- 哪款模型在编码或分析任务中最强?
- 哪款模型在幻觉测试中表现更安全?
本仓库展示了一种轻量级的评估方法,可用于随着时间推移收集更多证据并迭代改进。
标签:Cloudflare, Handshake AI Versus, LLM 评测, MITRE ATT&CK, Python 脚本, 事件沟通, 后端开发, 多模态安全, 大语言模型评估, 威胁情报, 威胁推理, 安全策略, 安全运营中心, 完整性, 幻觉抵抗, 开发者工具, 异常检测, 技术正确性, 提示词设计, 操作实用性, 检测指导, 模型比较, 清晰度, 现实性, 管理员页面发现, 网络安全, 网络映射, 身份安全, 逆向工具, 配对比较, 隐私保护