AatifAli64/AutoML-for-Deep-Learning-based-Malware-Detection

GitHub: AatifAli64/AutoML-for-Deep-Learning-based-Malware-Detection

一个集成静态与动态检测的AI驱动恶意软件分析平台,用于提升威胁发现和评估效率。

Stars: 0 | Forks: 0

# MALGUARD-X AI 驱动静态与动态恶意软件分析套件 # 概述 MALGUARD-X 是一个基于深度学习的恶意软件分析平台,集成了: * 使用 EMBER 2018 的静态 PE 恶意软件检测 * 使用 DARTS CNN 的在线/动态恶意软件行为监控 * 基于 AutoML 的架构优化 * 实时网络安全主题图形用户界面 * 支持 JSON 和 HTML 输出的报告生成 该项目旨在利用受研究论文和 AutoML 方法论启发的现代机器学习技术,分析 Windows PE 文件和实时进程行为。 # 核心功能 ## 静态恶意软件检测 * 使用 EMBER-2018 数据集 * 从可执行文件中提取 1649 个 PE 特征 * 使用深度 FFNN 模型检测恶意 PE 文件 * 计算: * 恶意软件概率 * 风险评分 * 熵 * SHA256 哈希 * 导入表和可疑 API * PE 结构信息 * 生成 HTML 和 JSON 报告 ## 在线/动态恶意软件检测 * 使用进程行为监控 * 将实时进程指标转换为 1x64x64 类似图像的张量 * 使用 DARTS 风格 CNN 架构搜索 * 检测可疑的运行时行为模式 * 监控: * CPU 活动 * 内存使用情况 * 网络活动 * IO 行为 * 进程/线程信息 * 生成实时监控快照和日志 # 使用的数据集 ## 1. EMBER 2018 数据集 用途: 静态恶意软件检测 数据集详情: * 约 100 万个 PE 样本 * 1649 维 PE 特征向量 * 标签: * 0 = 良性 * 1 = 恶意软件 * -1 = 未标记 处理后的平衡数据集: | 分割 | 良性 | 恶意软件 | 总计 | | ---------- | -----: | ------: | -----: | | 训练集 | 240000 | 240000 | 480000 | | 验证集 | 60000 | 60000 | 120000 | | 测试集 | 100000 | 100000 | 200000 | 最终处理的数据集大小: ``` 800000 labeled PE samples ``` 特征向量格式: ``` 1649 features per PE file ``` 特征包括: * 字节直方图 * 熵直方图 * PE 头信息 * 导入/导出表 * 区段信息 * 字符串信息 * 数据目录 * DLL 特性 * 入口区段信息 ## 2. 云端恶意软件动态数据集 用途: 在线/动态恶意软件检测 数据集包含: * CPU 指标 * 内存指标 * IO 活动 * 网络活动 * 进程/线程信息 * 运行时进程行为 CSV 进程数据已转换为: ``` 1 x 64 x 64 behavior images ``` 最终处理的在线数据集: ``` X shape: (28213, 1, 64, 64) y shape: (28213,) ``` 标签分布: ``` Benign: 15486 Malware: 12727 ``` # 静态检测架构 ## FFNN AutoML 模型 静态检测器使用基于 EMBER 特征训练的深度前馈神经网络。 训练包括: * NAS(神经架构搜索) * HPO(超参数优化) * 最终的论文式训练 ## 静态训练参数 ### NAS 阶段 ``` NAS trials: 20 NAS epochs: 25 ``` ### HPO 阶段 ``` HPO trials: 10 HPO epochs: 25 ``` ### 最终训练 ``` Final epochs: 25 ``` ## 静态模型性能 ``` { "accuracy": 0.962195, "precision": 0.9634509520801372, "recall": 0.96084, "f1": 0.9621437047198954, "auc": 0.9885095912500002 } ``` 混淆矩阵: ``` [[96355 3645] [ 3916 96084]] ``` # 在线检测架构 ## DARTS 卷积神经网络 在线检测系统使用受 DARTS 启发的 CNN 架构搜索方法。 候选操作包括: * sep_conv_3x3 * sep_conv_5x5 * dil_conv_3x3 * max_pool_3x3 * skip_connect DARTS 使用验证性能自动选择最佳操作。 # 在线 DARTS 训练参数 ``` Search epochs: 30 Final epochs: 100 Batch size: 96 Initial channels: 16 Number of blocks: 6 Dropout: 0.30 Weight learning rate: 0.0005 Architecture learning rate: 0.0003 Final learning rate: 0.0005 ``` 数据集分割: ``` 70% training 15% validation 15% testing ``` # 在线 DARTS CNN 结果 ``` { "accuracy": 0.9499054820415879, "precision": 0.949655537890832, "recall": 0.9387113672079623, "f1": 0.9441517386722866, "auc": 0.9930457197221761 } ``` 混淆矩阵: ``` [[2228 95] [ 117 1792]] ``` # 图形用户界面功能 MALGUARD-X 的 GUI 设计为网络安全主题的指挥中心界面。 功能: * 仪表板面板 * 静态 PE 扫描器 * 在线 DARTS 监视器 * 实时进程监控 * 风险可视化 * 报告清单系统 * 快照查看器 * 支持 HTML 和 JSON 导出 * 实时事件日志 # GUI 截图 ## 启动屏幕 ![启动屏幕](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/1cc09c417b004045.png) ## 仪表板/报告部分 ![仪表板](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/71132bfc0e004046.png) ## 在线动态监控 ![在线监控](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/f65f4d0e0e004047.png) ## 静态恶意软件检测 ![静态检测](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/ef761f4a64004047.png) # 使用的技术 ## 编程语言 * Python ## 深度学习库 * PyTorch * TensorFlow * NumPy * Pandas * Scikit-learn ## GUI 框架 * PyQt5 ## 恶意软件分析库 * pefile * psutil * hashlib ## 可视化/报告 * HTML * JSON * Matplotlib # 项目工作流程 ## 静态检测流程 ``` PE File ↓ 1649 Feature Extraction ↓ EMBER Feature Vector ↓ FFNN Model ↓ Malware Probability ↓ Risk Analysis ↓ HTML / JSON Report ``` ## 在线检测流程 ``` Live Process Metrics ↓ Behavior Snapshot Collection ↓ 1x64x64 Image Conversion ↓ DARTS CNN ↓ Behavior Classification ↓ Live Monitoring Dashboard ``` # 运行方法 ## 激活虚拟环境 ``` .\.venv\Scripts\Activate.ps1 ``` ## 运行 GUI ``` python gui.py ``` ## 静态恶意软件扫描 ``` python .\src\predict_pe.py --file "sample.exe" ``` ## 训练静态 FFNN ``` python .\src\train_paper_strict_ffnn.py --data .\data\processed\ember_static_dataset.npz --models-dir .\models --reports-dir .\reports --nas-trials 20 --nas-epochs 25 --hpo-trials 10 --hpo-epochs 25 --final-epochs 25 ``` ## 训练在线 DARTS CNN ``` python .\src\train_online_darts.py --data-dir .\data\online\train_cloud --models-dir .\models --reports-dir .\reports\online_darts_paper --search-epochs 30 --final-epochs 100 --batch-size 96 --init-channels 16 --num-blocks 6 --dropout 0.30 --weight-lr 0.0005 --arch-lr 0.0003 --final-lr 0.0005 ``` # 未来改进 * 实时沙箱集成 * 多家族恶意软件分类 * 实时数据包检查 * 基于 Transformer 的恶意软件模型 * 威胁情报 API 集成 * 跨平台行为监控 * 云部署支持
标签:AI驱动, AMSI绕过, Apex, API分析, API安全, AutoML, DARTS CNN, DAST, EMBER 2018, HTML输出, JSON输出, PE文件分析, SHA256哈希, 云安全监控, 人工智能安全, 凭据扫描, 前馈神经网络, 卷积神经网络, 合规性, 威胁检测, 恶意软件分析, 机器学习, 架构优化, 深度学习, 深度学习模型, 熵计算, 特征提取, 网络安全, 行为监控, 逆向工具, 隐私保护, 静态分析