AatifAli64/AutoML-for-Deep-Learning-based-Malware-Detection

GitHub: AatifAli64/AutoML-for-Deep-Learning-based-Malware-Detection

一个集成静态与动态检测的AI驱动恶意软件分析平台，用于提升威胁发现和评估效率。

Stars: 0 | Forks: 0

# MALGUARD-X AI 驱动静态与动态恶意软件分析套件 # 概述 MALGUARD-X 是一个基于深度学习的恶意软件分析平台，集成了： * 使用 EMBER 2018 的静态 PE 恶意软件检测 * 使用 DARTS CNN 的在线/动态恶意软件行为监控 * 基于 AutoML 的架构优化 * 实时网络安全主题图形用户界面 * 支持 JSON 和 HTML 输出的报告生成该项目旨在利用受研究论文和 AutoML 方法论启发的现代机器学习技术，分析 Windows PE 文件和实时进程行为。 # 核心功能 ## 静态恶意软件检测 * 使用 EMBER-2018 数据集 * 从可执行文件中提取 1649 个 PE 特征 * 使用深度 FFNN 模型检测恶意 PE 文件 * 计算： * 恶意软件概率 * 风险评分 * 熵 * SHA256 哈希 * 导入表和可疑 API * PE 结构信息 * 生成 HTML 和 JSON 报告 ## 在线/动态恶意软件检测 * 使用进程行为监控 * 将实时进程指标转换为 1x64x64 类似图像的张量 * 使用 DARTS 风格 CNN 架构搜索 * 检测可疑的运行时行为模式 * 监控： * CPU 活动 * 内存使用情况 * 网络活动 * IO 行为 * 进程/线程信息 * 生成实时监控快照和日志 # 使用的数据集 ## 1. EMBER 2018 数据集用途：静态恶意软件检测数据集详情： * 约 100 万个 PE 样本 * 1649 维 PE 特征向量 * 标签： * 0 = 良性 * 1 = 恶意软件 * -1 = 未标记处理后的平衡数据集： | 分割 | 良性 | 恶意软件 | 总计 | | ---------- | -----: | ------: | -----: | | 训练集 | 240000 | 240000 | 480000 | | 验证集 | 60000 | 60000 | 120000 | | 测试集 | 100000 | 100000 | 200000 | 最终处理的数据集大小： ``` 800000 labeled PE samples ``` 特征向量格式： ``` 1649 features per PE file ``` 特征包括： * 字节直方图 * 熵直方图 * PE 头信息 * 导入/导出表 * 区段信息 * 字符串信息 * 数据目录 * DLL 特性 * 入口区段信息 ## 2. 云端恶意软件动态数据集用途：在线/动态恶意软件检测数据集包含： * CPU 指标 * 内存指标 * IO 活动 * 网络活动 * 进程/线程信息 * 运行时进程行为 CSV 进程数据已转换为： ``` 1 x 64 x 64 behavior images ``` 最终处理的在线数据集： ``` X shape: (28213, 1, 64, 64) y shape: (28213,) ``` 标签分布： ``` Benign: 15486 Malware: 12727 ``` # 静态检测架构 ## FFNN AutoML 模型静态检测器使用基于 EMBER 特征训练的深度前馈神经网络。训练包括： * NAS（神经架构搜索） * HPO（超参数优化） * 最终的论文式训练 ## 静态训练参数 ### NAS 阶段 ``` NAS trials: 20 NAS epochs: 25 ``` ### HPO 阶段 ``` HPO trials: 10 HPO epochs: 25 ``` ### 最终训练 ``` Final epochs: 25 ``` ## 静态模型性能 ``` { "accuracy": 0.962195, "precision": 0.9634509520801372, "recall": 0.96084, "f1": 0.9621437047198954, "auc": 0.9885095912500002 } ``` 混淆矩阵： ``` [[96355 3645] [ 3916 96084]] ``` # 在线检测架构 ## DARTS 卷积神经网络在线检测系统使用受 DARTS 启发的 CNN 架构搜索方法。候选操作包括： * sep_conv_3x3 * sep_conv_5x5 * dil_conv_3x3 * max_pool_3x3 * skip_connect DARTS 使用验证性能自动选择最佳操作。 # 在线 DARTS 训练参数 ``` Search epochs: 30 Final epochs: 100 Batch size: 96 Initial channels: 16 Number of blocks: 6 Dropout: 0.30 Weight learning rate: 0.0005 Architecture learning rate: 0.0003 Final learning rate: 0.0005 ``` 数据集分割： ``` 70% training 15% validation 15% testing ``` # 在线 DARTS CNN 结果 ``` { "accuracy": 0.9499054820415879, "precision": 0.949655537890832, "recall": 0.9387113672079623, "f1": 0.9441517386722866, "auc": 0.9930457197221761 } ``` 混淆矩阵： ``` [[2228 95] [ 117 1792]] ``` # 图形用户界面功能 MALGUARD-X 的 GUI 设计为网络安全主题的指挥中心界面。功能： * 仪表板面板 * 静态 PE 扫描器 * 在线 DARTS 监视器 * 实时进程监控 * 风险可视化 * 报告清单系统 * 快照查看器 * 支持 HTML 和 JSON 导出 * 实时事件日志 # GUI 截图 ## 启动屏幕 ![启动屏幕](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/1cc09c417b004045.png) ## 仪表板/报告部分 ![仪表板](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/71132bfc0e004046.png) ## 在线动态监控 ![在线监控](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/f65f4d0e0e004047.png) ## 静态恶意软件检测 ![静态检测](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/ef761f4a64004047.png) # 使用的技术 ## 编程语言 * Python ## 深度学习库 * PyTorch * TensorFlow * NumPy * Pandas * Scikit-learn ## GUI 框架 * PyQt5 ## 恶意软件分析库 * pefile * psutil * hashlib ## 可视化/报告 * HTML * JSON * Matplotlib # 项目工作流程 ## 静态检测流程 ``` PE File ↓ 1649 Feature Extraction ↓ EMBER Feature Vector ↓ FFNN Model ↓ Malware Probability ↓ Risk Analysis ↓ HTML / JSON Report ``` ## 在线检测流程 ``` Live Process Metrics ↓ Behavior Snapshot Collection ↓ 1x64x64 Image Conversion ↓ DARTS CNN ↓ Behavior Classification ↓ Live Monitoring Dashboard ``` # 运行方法 ## 激活虚拟环境 ``` .\.venv\Scripts\Activate.ps1 ``` ## 运行 GUI ``` python gui.py ``` ## 静态恶意软件扫描 ``` python .\src\predict_pe.py --file "sample.exe" ``` ## 训练静态 FFNN ``` python .\src\train_paper_strict_ffnn.py --data .\data\processed\ember_static_dataset.npz --models-dir .\models --reports-dir .\reports --nas-trials 20 --nas-epochs 25 --hpo-trials 10 --hpo-epochs 25 --final-epochs 25 ``` ## 训练在线 DARTS CNN ``` python .\src\train_online_darts.py --data-dir .\data\online\train_cloud --models-dir .\models --reports-dir .\reports\online_darts_paper --search-epochs 30 --final-epochs 100 --batch-size 96 --init-channels 16 --num-blocks 6 --dropout 0.30 --weight-lr 0.0005 --arch-lr 0.0003 --final-lr 0.0005 ``` # 未来改进 * 实时沙箱集成 * 多家族恶意软件分类 * 实时数据包检查 * 基于 Transformer 的恶意软件模型 * 威胁情报 API 集成 * 跨平台行为监控 * 云部署支持

标签：AI驱动, AMSI绕过, Apex, API分析, API安全, AutoML, DARTS CNN, DAST, EMBER 2018, HTML输出, JSON输出, PE文件分析, SHA256哈希, 云安全监控, 人工智能安全, 凭据扫描, 前馈神经网络, 卷积神经网络, 合规性, 威胁检测, 恶意软件分析, 机器学习, 架构优化, 深度学习, 深度学习模型, 熵计算, 特征提取, 网络安全, 行为监控, 逆向工具, 隐私保护, 静态分析