issraa-hub/Malware-RAG-Analysis
GitHub: issraa-hub/Malware-RAG-Analysis
基于 MITRE ATT&CK 框架构建恶意软件分析知识图谱,将非结构化威胁情报转化为结构化图数据库以支撑 RAG 增强分析。
Stars: 0 | Forks: 0
# 恶意软件分析知识图谱
本项目旨在基于“MITRE ATT&CK 框架”构建一个“知识图谱”,以利用“RAG (Retrieval-Augmented Generation,检索增强生成)”增强恶意软件分析能力。
## 项目概述
本实现的核心是将非结构化的威胁情报数据 转换为结构化的图数据库。这实现了恶意软件、工具及其各自技术之间的深度关系映射。
## 仓库结构
* `/scripts`:包含用于数据提取、清理和格式化的 Python 脚本。
* `techniques.csv`:攻击模式的处理后数据。
* `malwares.csv`:恶意软件和工具的处理后数据。
* `tactics.csv`:攻击模式的战略类别。
* `relationships.csv`:软件与技术之间“USES”链接的关系映射。
## 实现步骤
### 1. 数据提取与清洗
* 操作:使用 Python 解析了 `enterprise-attack.json`。
* 清洗:移除了学术引用(例如 [1]、[2])、剥离了 URL,并对描述进行了标准化处理,以确保为 RAG 模型提供高质量的数据。
2. 数据托管
* 文件托管在此 GitHub 仓库中,以提供通过 Raw URL 的直接访问,从而实现基于云的数据库同步。
3. 图构建 (Neo4j)
* 平台:Neo4j Aura Cloud。
* 方法:使用“Cypher Query Language (CQL)”结合 `LOAD CSV` 导入节点并建立了超过“10,000+ 个关系”。
* 逻辑:每个 `Software`(恶意软件/工具)都通过 `[:USES]` 关系连接到其对应的 `Technique`。
4. 可视化
* 使用“Neo4j Browser”验证了图结构,确保正确映射了复杂的攻击行为集群。
统计数据
.技术: 835
.软件节点 (Malware/Tools): 787
.关系: 10,636
.战术: 14
标签:ATT&CK框架, Cloudflare, CQL, CSV处理, Cypher查询语言, DAST, JSON解析, MITRE ATT&CK, Neo4j, Neo4j Aura, Python, RAG, 关系映射, 图可视化, 威胁情报, 安全技术, 安全数据分析, 开发者工具, 恶意软件分析, 数据提取, 数据清洗, 无后门, 检索增强生成, 网络安全, 软件行为分析, 逆向工具, 隐私保护