nicky-quist/llm-cybersecurity-benchmark

GitHub: nicky-quist/llm-cybersecurity-benchmark

该项目通过 pairwise 比较对 LLM 在网络安全 SOC 任务上的表现进行基准评估，解决模型选型与任务适配问题。

Stars: 1 | Forks: 0

# 针对网络安全 SOC 任务的 LLM 评估使用 **Handshake AI Versus** pairwise 比较方法，对不同大型语言模型在网络安全和 SOC 相关任务上的表现进行基准测试。 ## 项目目标本项目评估不同 LLM 在 SOC 和安全工程工作流程中涉及的技术任务上的表现，包括： - MITRE ATT&CK 解释 - SOC 检测指导 - 事件调查 - 检测工程 - Python 脚本编写 - 威胁情报概念 - 网络异常检测 - 幻觉抵抗力 - 云和身份安全工作流程 - 安全自动化与事件沟通与其宣称某个模型全面最优，本项目旨在探索 **不同模型在不同网络安全任务类型上的表现差异**。 ## 方法论 - 平台：Handshake AI Versus - 评估设计：模型 pairwise 比较 - 提示数量：20 - 测试领域： - 网络安全知识 - SOC 检测与应急响应 - 检测工程 - 编码 - 推理与规划 - 幻觉处理 - 云/身份/网络安全 - 安全运营策略每项比较从以下方面综合评判： - 技术正确性 - 完整性 - 操作实用性 - 清晰度 - 对 SOC 工作流程的现实性 - 相关场景下的幻觉抵抗力 ## 最终结果 ### 模型获胜次数 | 模型 | 获胜次数 | |---|---:| | Gemini-2.5-Pro | 4 | | Gemini-3.1-Pro-Preview | 4 | | GPT-4.1-Mini | 4 | | GPT-5.2 | 3 | | Gemini-2.5-Flash-Lite | 2 | | GPT-5.2-High | 2 | | Gemini-3-Flash-Preview | 1 | ### 厂商获胜次数 | 厂商 | 获胜次数 | |---|---:| | Google | 11 | | OpenAI | 9 | ### 关键结论 - 扩大测试范围后，**仍无单一模型在所有类别中占据主导**。 - 表现最优的模型高度集中，有三款模型并列以 4 次获胜位居第一。 - 本轮测试中，Google 模型总体领先（11/20），OpenAI 模型保持竞争力（9/20）。 - 结果继续表明模型选择应 **针对具体任务**（例如：叙事性深度检测 vs 简洁编码/分诊输出质量）。 ## 仓库结构 ``` llm-cybersecurity-benchmark/ ├── README.md ├── dashboard/ │ └── index.html ├── data/ │ ├── prompt_results.csv │ ├── model_wins.csv │ └── vendor_wins.csv ├── analysis/ │ └── benchmark_analysis.ipynb └── visualizations/ ├── wins_by_model.png ├── wins_by_vendor.png └── winner_by_prompt.png ``` ## 交互式仪表板功能仪表板（`dashboard/index.html`）现已包含： - 提示数量、厂商获胜次数、模型覆盖率和顶级模型平局的 KPI 卡片 - 双计分板（厂商获胜次数 + 获胜最多的顶级模型） - 类别标签、全文搜索和可排序的提示结果行 - 每个提示的推理详情可展开/收起 - 带有获胜/失败/胜率统计的模型亮点卡片 - 展示重复配对结果的面对面 matchup 汇总在浏览器中打开 `dashboard/index.html` 以探索完整的交互式视图。 ## 提示集完整的提示集存储在 `data/prompt_results.csv`（共 20 行）。 ## 局限性 - 样本量仍小于生产级基准测试套件。 - Pairwise 测试方式意味着并非每款模型都与其他所有模型进行同等测试。 - 评估由人工引导，而非使用严格的数值评分标准。 - 提示措辞和选定的模型配对可能影响结果。 ## 为什么这个项目很重要对于安全团队而言，LLM 的采用不仅仅是选择“最佳总体模型”，而是 **适用性匹配**： - 哪款模型最能解释 ATT&CK 技术？ - 哪款模型提供最现实的 SOC 工作流程指导？ - 哪款模型在编码或分析任务中最强？ - 哪款模型在幻觉测试中表现更安全？本仓库展示了一种轻量级的评估方法，可用于随着时间推移收集更多证据并迭代改进。

标签：Cloudflare, Handshake AI Versus, LLM 评测, MITRE ATT&CK, Python 脚本, 事件沟通, 后端开发, 多模态安全, 大语言模型评估, 威胁情报, 威胁推理, 安全策略, 安全运营中心, 完整性, 幻觉抵抗, 开发者工具, 异常检测, 技术正确性, 提示词设计, 操作实用性, 检测指导, 模型比较, 清晰度, 现实性, 管理员页面发现, 网络安全, 网络映射, 身份安全, 逆向工具, 配对比较, 隐私保护