nicky-quist/llm-cybersecurity-benchmark

GitHub: nicky-quist/llm-cybersecurity-benchmark

该项目通过 pairwise 比较对 LLM 在网络安全 SOC 任务上的表现进行基准评估,解决模型选型与任务适配问题。

Stars: 1 | Forks: 0

# 针对网络安全 SOC 任务的 LLM 评估 使用 **Handshake AI Versus** pairwise 比较方法,对不同大型语言模型在网络安全和 SOC 相关任务上的表现进行基准测试。 ## 项目目标 本项目评估不同 LLM 在 SOC 和安全工程工作流程中涉及的技术任务上的表现,包括: - MITRE ATT&CK 解释 - SOC 检测指导 - 事件调查 - 检测工程 - Python 脚本编写 - 威胁情报概念 - 网络异常检测 - 幻觉抵抗力 - 云和身份安全工作流程 - 安全自动化与事件沟通 与其宣称某个模型全面最优,本项目旨在探索 **不同模型在不同网络安全任务类型上的表现差异**。 ## 方法论 - 平台:Handshake AI Versus - 评估设计:模型 pairwise 比较 - 提示数量:20 - 测试领域: - 网络安全知识 - SOC 检测与应急响应 - 检测工程 - 编码 - 推理与规划 - 幻觉处理 - 云/身份/网络安全 - 安全运营策略 每项比较从以下方面综合评判: - 技术正确性 - 完整性 - 操作实用性 - 清晰度 - 对 SOC 工作流程的现实性 - 相关场景下的幻觉抵抗力 ## 最终结果 ### 模型获胜次数 | 模型 | 获胜次数 | |---|---:| | Gemini-2.5-Pro | 4 | | Gemini-3.1-Pro-Preview | 4 | | GPT-4.1-Mini | 4 | | GPT-5.2 | 3 | | Gemini-2.5-Flash-Lite | 2 | | GPT-5.2-High | 2 | | Gemini-3-Flash-Preview | 1 | ### 厂商获胜次数 | 厂商 | 获胜次数 | |---|---:| | Google | 11 | | OpenAI | 9 | ### 关键结论 - 扩大测试范围后,**仍无单一模型在所有类别中占据主导**。 - 表现最优的模型高度集中,有三款模型并列以 4 次获胜位居第一。 - 本轮测试中,Google 模型总体领先(11/20),OpenAI 模型保持竞争力(9/20)。 - 结果继续表明模型选择应 **针对具体任务**(例如:叙事性深度检测 vs 简洁编码/分诊输出质量)。 ## 仓库结构 ``` llm-cybersecurity-benchmark/ ├── README.md ├── dashboard/ │ └── index.html ├── data/ │ ├── prompt_results.csv │ ├── model_wins.csv │ └── vendor_wins.csv ├── analysis/ │ └── benchmark_analysis.ipynb └── visualizations/ ├── wins_by_model.png ├── wins_by_vendor.png └── winner_by_prompt.png ``` ## 交互式仪表板功能 仪表板(`dashboard/index.html`)现已包含: - 提示数量、厂商获胜次数、模型覆盖率和顶级模型平局的 KPI 卡片 - 双计分板(厂商获胜次数 + 获胜最多的顶级模型) - 类别标签、全文搜索和可排序的提示结果行 - 每个提示的推理详情可展开/收起 - 带有获胜/失败/胜率统计的模型亮点卡片 - 展示重复配对结果的面对面 matchup 汇总 在浏览器中打开 `dashboard/index.html` 以探索完整的交互式视图。 ## 提示集 完整的提示集存储在 `data/prompt_results.csv`(共 20 行)。 ## 局限性 - 样本量仍小于生产级基准测试套件。 - Pairwise 测试方式意味着并非每款模型都与其他所有模型进行同等测试。 - 评估由人工引导,而非使用严格的数值评分标准。 - 提示措辞和选定的模型配对可能影响结果。 ## 为什么这个项目很重要 对于安全团队而言,LLM 的采用不仅仅是选择“最佳总体模型”,而是 **适用性匹配**: - 哪款模型最能解释 ATT&CK 技术? - 哪款模型提供最现实的 SOC 工作流程指导? - 哪款模型在编码或分析任务中最强? - 哪款模型在幻觉测试中表现更安全? 本仓库展示了一种轻量级的评估方法,可用于随着时间推移收集更多证据并迭代改进。
标签:Cloudflare, Handshake AI Versus, LLM 评测, MITRE ATT&CK, Python 脚本, 事件沟通, 后端开发, 多模态安全, 大语言模型评估, 威胁情报, 威胁推理, 安全策略, 安全运营中心, 完整性, 幻觉抵抗, 开发者工具, 异常检测, 技术正确性, 提示词设计, 操作实用性, 检测指导, 模型比较, 清晰度, 现实性, 管理员页面发现, 网络安全, 网络映射, 身份安全, 逆向工具, 配对比较, 隐私保护