andrew-costello/FYP-Behaviour-Based-Analysis-and-Visualisation-of-Malware-Sandbox-JSON-Reports

GitHub: andrew-costello/FYP-Behaviour-Based-Analysis-and-Visualisation-of-Malware-Sandbox-JSON-Reports

基于CAPEv2沙箱报告的恶意软件行为分析与家族分类系统，提供特征提取、机器学习分类和交互式可视化仪表板。

Stars: 0 | Forks: 0

# 基于行为的恶意软件家族分类本仓库包含我**毕业设计**的最终实现，重点在于使用 **CAPEv2 sandbox 执行报告**进行基于行为的恶意软件分析。该项目将动态 sandbox JSON 报告转换为结构化、可解释的行为特征，并应用机器学习按**家族**对恶意软件样本进行分类。该系统旨在支持 sandbox 之后的恶意软件分析和分类，而非自动化的恶意软件检测。所使用的数据集是 **Avast-CTU Public CAPEv2 Dataset**，其中仅包含恶意样本的 sandbox 执行报告。每份报告都被转换为一个固定长度的数值特征向量，概括了注册表活动、API 使用、文件系统交互和执行行为。多个模型在提取的特征上进行了训练，包括作为可解释基线的 **XGBoost 分类器**，以及作为对比深度学习方法的**前馈神经网络 (MLP)**。此外，还使用了 **Random Forest** 和 **Logistic Regression** 等其他经典模型进行比较。模型性能通过准确率、宏 F1 分数 (macro F1-score) 和混淆矩阵分析进行评估。该项目还包含一个行为风险评分组件，根据从 sandbox 报告中提取的特征来评估所观察活动的严重程度。风险评分源自注册表交互、命令执行、API 使用模式和文件系统活动等行为指标，并与模型预测结果一起展示，以辅助分类决策。项目中包含一个用于分析 sandbox 报告的交互式 Web 仪表板。该界面允许分析人员上传 CAPEv2 JSON 报告并查看： - 预测的恶意软件家族 - 行为风险评分 - 模型比较结果 - 行为特征可视化 - 风险因素分析 - 提取的行为证据 - 所观察活动的人类可读摘要本仓库包含用于**特征提取、模型训练、评估和分析仪表板**的最终代码。数据集本身不包含在内。 *这项工作是作为我本科毕业设计的一部分完成的。*

标签：Apex, Avast-CTU数据集, CAPEv2, DAST, HTTP工具, MLP, Python, Web仪表盘, XGBoost, 凭据扫描, 前馈神经网络, 基于行为的检测, 安全运营, 恶意软件分析, 恶意软件家族分类, 扫描框架, 无后门, 最终毕业设计, 机器学习, 沙箱报告分析, 深度学习, 网络威胁情报, 网络安全, 网络安全审计, 行为特征提取, 逆向工具, 逻辑回归, 随机森林, 隐私保护, 风险评分