maveryn/cti-bench

GitHub: maveryn/cti-bench

首个面向网络威胁情报场景的 LLM 综合评测基准,涵盖知识问答、漏洞推理、严重性评估、技术提取与威胁归因五类任务。

Stars: 84 | Forks: 30

# CTIBench CTIBench 是一个用于评估大型语言模型在实际 Cyber Threat Intelligence (CTI) 任务上表现的基准测试。它涵盖了 CTI 知识、漏洞 根因映射、漏洞严重性预测、ATT&CK 技术 提取以及威胁行为者归因。

Project Page arXiv Paper PDF Dataset NeurIPS 2024 Spotlight

CTIBench overview

## 亮点 - 首个广泛的 CTI 基准测试,用于跨实际情报任务评估 LLM - 5 个任务系列,涵盖 CTI 知识、CVE/CWE 推理、CVSS 评分、ATT&CK 技术提取和威胁归因 - 4,610 个已发布的基准测试示例,以及一个 2021 年根因映射对比划分 - 对 ChatGPT-3.5、ChatGPT-4、Gemini-1.5、LLAMA3-70B 和 LLAMA3-8B 的评估 - 已发布的数据集、格式化的模型响应、原始日志、评估笔记本和项目主页 ## 资源 | 资源 | 链接 | | --- | --- | | 项目主页 | https://maveryn.github.io/cti-bench/ | | 论文 | https://arxiv.org/abs/2406.07599 | | 数据集 | https://huggingface.co/datasets/AI4Sec/cti-bench | ## 仓库布局 | 路径 | 描述 | | --- | --- | | `data/` | CTIBench 任务 TSV 文件 | | `evaluation/` | 评估和模型预测的笔记本 | | `evaluation/responses/` | 评估笔记本使用的格式化模型响应 | | `logs/` | ChatGPT-3.5、ChatGPT-4 和 Gemini-1.5 的原始模型输出 | | `docs/` | 用于 GitHub Pages 的最小静态项目主页 | ## 数据集概述 | 任务 | 文件 | 示例数 | 目标 | | --- | --- | ---: | --- | | CTI-MCQ | `data/cti-mcq.tsv` | 2,500 | 多选 CTI 知识答案 | | CTI-RCM | `data/cti-rcm.tsv` | 1,000 | CWE 根因映射 | | CTI-RCM-2021 | `data/cti-rcm-2021.tsv` | 1,000 | 用于 CWE 映射的 2021 年对比划分 | | CTI-VSP | `data/cti-vsp.tsv` | 1,000 | CVSS v3.1 向量字符串 | | CTI-ATE | `data/cti-ate.tsv` | 60 | MITRE ATT&CK 技术 ID | | CTI-TAA | `data/cti-taa.tsv` | 50 | 威胁行为者归因 prompt 输入 | 对于 CTI-TAA,`data/cti-taa.tsv` 包含 URL、匿名化的报告文本和 prompt。 格式化的响应文件 `evaluation/responses/cti-taa-responses.tsv` 包含了 评估笔记本所使用的真实威胁行为者标签。 数据集详情也可在 Hugging Face 上获取: https://huggingface.co/datasets/AI4Sec/cti-bench ## 评估 `evaluation/` 目录包含用于生成预测和 评估格式化响应的笔记本。响应 TSV 文件包括以下模型的预测: - ChatGPT-3.5 - ChatGPT-4 - Gemini-1.5 - LLAMA3-70B - LLAMA3-8B 主要的评估指标为:CTI-MCQ 和 CTI-RCM 的准确率,CTI-VSP 的平均绝对 偏差,CTI-ATE 的 F1 分数,以及 CTI-TAA 的正确/合理准确率。 ## Star 历史 [![Star History Chart](https://api.star-history.com/svg?repos=maveryn/cti-bench&type=date&legend=top-left)](https://www.star-history.com/#maveryn/cti-bench&type=date&legend=top-left) ## 引用 如果您使用了 CTIBench,请引用: ``` @article{alam2024ctibench, title={Ctibench: A benchmark for evaluating llms in cyber threat intelligence}, author={Alam, Md Tanvirul and Bhusal, Dipkamal and Nguyen, Le and Rastogi, Nidhi}, journal={Advances in Neural Information Processing Systems}, volume={37}, pages={50805--50825}, year={2024} } ```
标签:AES-256, AI4Security, AMSI绕过, Apex, CISA项目, CSV导出, CVE, CVSS, DLL 劫持, GitHub, HTTP工具, IP 地址批量处理, LLM评估, Mr. Robot, NeurIPS 2024, NoSQL, Ollama, 人工智能, 信息提取, 后渗透, 域名收集, 大语言模型, 威胁归因, 威胁检测, 安全情报, 实时处理, 密码管理, 开源软件, 插件系统, 数字签名, 数据包嗅探, 文档安全, 无线安全, 机器学习, 流量嗅探, 深度学习, 漏洞评估, 漏洞预测, 用户模式Hook绕过, 网络信息收集, 网络威胁情报, 网络安全, 网络安全审计, 网络安全评估, 逆向工具, 隐私保护