dheerajdamala/malware-analysis-by-converting-into-image
GitHub: dheerajdamala/malware-analysis-by-converting-into-image
一个基于四管道混合架构的静态恶意软件检测框架,通过图像与结构化特征并行建模并融合决策,避免动态执行风险。
Stars: 0 | Forks: 0
# 4-Pipeline 混合恶意软件检测架构
实现一个全面安全的静态检测框架,完全避免动态文件执行漏洞。它将结构化的 PE 特征映射到机器学习,同时将二进制图像表示摄入到深度学习拓扑中。
该架构利用一个堆叠的 **Meta-Learner** 来动态融合 4 个独立评估管道之间的边界。
## 4 个评估管道
* **Pipeline 1 (XGBoost)**:分析从 Portable Executable (PE) 头提取的静态结构数组,使用类似 EMBER 数据集维度的指标。
* **Pipeline 2 (ResNet18 CNN)**:分析二进制的 2D 视觉表示(图像映射),检测复杂的几何结构。
* **Pipeline 3 (Custom CNN)**:一个轻量级原生构建的卷积拓扑,与 ResNet18 并行运行,以捕获低级视觉伪影。
* **Pipeline 4 (Meta-CNN Conv1D)**:不通过手动评分模型可信度,而是使用 1D 卷积神经网络按顺序融合管道 1-3 的概率,以安全地计算最终的 `Malware` 与 `Benign` 分类。
## 可解释性
* **特征重要性**:在 XGBoost 评估期间提取的表格指标的原生权重排名。
* **Grad-CAM 可视化**:原生从最终的 ResNet 卷积层提取梯度,输出热图以定位恶意文件的几何结构。
## 安全指令
**不要**执行 PE 输入。完全处理字符串、依赖项和图形等效表示,避免任何直接机器层解析约束,仅使用原生可用的 CSV 和结构化 JPG 映射。
## 用法
数据路径原生地从本地 `/dataset/` 加载数组:
* `/dataset/images/` → 预抓取的 Malimg 图像,直接拆分为 `malware/` 和 `benign/`。
* `/dataset/features/` → EMBER 表示原生解析为 `.csv` 属性。
1. 显式集成 Python 依赖项(PyTorch、XGBoost、Scikit-Learn、OpenCV)。
2. 指引系统组件运行而不进行结构输入,自动评估模拟结构数据集数组,确保在原生 PyTorch 上执行稳定性。
```
python train.py
```
```
python predict.py
```
标签:1D卷积, EMBER数据集, Grad-CAM, PE文件, SEO恶意软件检测, Stacked Pipeline, URL发现, XGBoost, 二进制分析, 二进制图像, 云安全监控, 云安全运维, 元学习器, 凭据扫描, 卷积神经网络, 反病毒机器学习, 可解释性, 图像分类, 安全检测, 安全静态框架, 无动态执行, 深度学习, 混合架构, 特征重要性, 逆向工具, 静态分析