SohamSurve22/Maltrain

GitHub: SohamSurve22/Maltrain

基于深度学习的恶意软件家族聚类与可视化框架，利用 CNN 特征提取和降维技术分析恶意软件家族间的相似性结构。

Stars: 0 | Forks: 0

# Maltrain ## 概述 Maltrain 是一个基于深度学习的恶意软件家族聚类与可视化框架，旨在为恶意软件分类领域的研究探索提供支持。该项目专注于从恶意软件图像中提取学习到的表征，并利用 CNN embeddings、PCA 降维和 t-SNE 可视化技术分析家族级别的相似性结构。本项目使用的主要数据集是来自 Kaggle 的 **Malimg malware dataset**。数据集来源： https://www.kaggle.com/datasets/manmandes/malimg ## 项目结构 ``` Maltrain/ │ ├── data/ # Dataset storage (not included in repo) ├── scripts/ # Training, visualization, and analysis scripts ├── src/ # Core model and feature extraction pipeline ├── results/ # Generated plots, embeddings, and reports ├── models/ # Saved trained models └── README.md ``` ## 数据集设置 ### 下载数据集 1. 访问： https://www.kaggle.com/datasets/manmandes/malimg 2. 下载数据集存档。 3. 将数据集解压到 `data/` 目录中： ``` data/ └── malimg_dataset/ ├── Family1/ ├── Family2/ └── ... ``` 最终路径应类似于： ``` Maltrain/data/malimg_dataset/ ``` ## 安装创建虚拟环境： ``` python -m venv venv source venv/bin/activate # Linux/Mac venv\Scripts\activate # Windows ``` 安装依赖： ``` pip install -r requirements.txt ``` ## 训练流程运行预处理和模型训练： ``` python scripts/train_cnn.py ``` 此脚本将： * 加载恶意软件图像样本 * 执行归一化和数据增强。 * 训练 CNN 特征提取器。 * 保存模型检查点。 ## 可视化流程 ### PCA 投影 ``` python scripts/pca_visualization.py ``` 生成： * 家族级别的可分性图。 ### t-SNE Embedding 可视化 ``` python scripts/tsne_visualization.py ``` 生成用于恶意软件家族聚类的出版级 embedding 图。 ## 输出结果结果存储在： ``` results/ ├── embeddings/ ├── plots/ └── metrics/ ``` 典型输出包括： * 混淆矩阵 * 家族相似性图 * 降维投影 ## 研究目的本项目适用于： * 恶意软件家族聚类研究 * 表征学习分析 * 高维恶意软件 embeddings 可视化 * 实验性网络安全 ML 探索目前尚未针对生产环境部署进行优化。 ## 未来改进 * 添加分层交叉验证评估。 * 引入基于 Transformer 的恶意软件表征模型。 * 扩展至对抗鲁棒性测试分析。 * 添加基于 SHAP 的可解释性可视化。 * 与经典 ML 基线进行对比测试。 ## 引用如果您在学术或研究目的中使用本项目，请引用该仓库。数据集引用： Malimg Malware Dataset — https://www.kaggle.com/datasets/manmandes/malimg ## 作者由 SohamSurve22 维护

标签：Apex, CNN, DAST, Malimg数据集, malware visualization, Mutation, PCA降维, Python, t-SNE, 人工智能, 可视化, 图像分类, 威胁情报, 嵌入向量, 开发者工具, 恶意代码家族聚类, 恶意软件分析, 数据科学, 数据预处理, 无后门, 机器学习, 模式识别, 深度学习, 特征提取, 用户模式Hook绕过, 科研工具, 网络安全, 资源验证, 逆向工具, 隐私保护