AatifAli64/AutoML-for-Deep-Learning-based-Malware-Detection
GitHub: AatifAli64/AutoML-for-Deep-Learning-based-Malware-Detection
一个集成静态与动态检测的AI驱动恶意软件分析平台,用于提升威胁发现和评估效率。
Stars: 0 | Forks: 0
# MALGUARD-X
AI 驱动静态与动态恶意软件分析套件
# 概述
MALGUARD-X 是一个基于深度学习的恶意软件分析平台,集成了:
* 使用 EMBER 2018 的静态 PE 恶意软件检测
* 使用 DARTS CNN 的在线/动态恶意软件行为监控
* 基于 AutoML 的架构优化
* 实时网络安全主题图形用户界面
* 支持 JSON 和 HTML 输出的报告生成
该项目旨在利用受研究论文和 AutoML 方法论启发的现代机器学习技术,分析 Windows PE 文件和实时进程行为。
# 核心功能
## 静态恶意软件检测
* 使用 EMBER-2018 数据集
* 从可执行文件中提取 1649 个 PE 特征
* 使用深度 FFNN 模型检测恶意 PE 文件
* 计算:
* 恶意软件概率
* 风险评分
* 熵
* SHA256 哈希
* 导入表和可疑 API
* PE 结构信息
* 生成 HTML 和 JSON 报告
## 在线/动态恶意软件检测
* 使用进程行为监控
* 将实时进程指标转换为 1x64x64 类似图像的张量
* 使用 DARTS 风格 CNN 架构搜索
* 检测可疑的运行时行为模式
* 监控:
* CPU 活动
* 内存使用情况
* 网络活动
* IO 行为
* 进程/线程信息
* 生成实时监控快照和日志
# 使用的数据集
## 1. EMBER 2018 数据集
用途:
静态恶意软件检测
数据集详情:
* 约 100 万个 PE 样本
* 1649 维 PE 特征向量
* 标签:
* 0 = 良性
* 1 = 恶意软件
* -1 = 未标记
处理后的平衡数据集:
| 分割 | 良性 | 恶意软件 | 总计 |
| ---------- | -----: | ------: | -----: |
| 训练集 | 240000 | 240000 | 480000 |
| 验证集 | 60000 | 60000 | 120000 |
| 测试集 | 100000 | 100000 | 200000 |
最终处理的数据集大小:
```
800000 labeled PE samples
```
特征向量格式:
```
1649 features per PE file
```
特征包括:
* 字节直方图
* 熵直方图
* PE 头信息
* 导入/导出表
* 区段信息
* 字符串信息
* 数据目录
* DLL 特性
* 入口区段信息
## 2. 云端恶意软件动态数据集
用途:
在线/动态恶意软件检测
数据集包含:
* CPU 指标
* 内存指标
* IO 活动
* 网络活动
* 进程/线程信息
* 运行时进程行为
CSV 进程数据已转换为:
```
1 x 64 x 64 behavior images
```
最终处理的在线数据集:
```
X shape: (28213, 1, 64, 64)
y shape: (28213,)
```
标签分布:
```
Benign: 15486
Malware: 12727
```
# 静态检测架构
## FFNN AutoML 模型
静态检测器使用基于 EMBER 特征训练的深度前馈神经网络。
训练包括:
* NAS(神经架构搜索)
* HPO(超参数优化)
* 最终的论文式训练
## 静态训练参数
### NAS 阶段
```
NAS trials: 20
NAS epochs: 25
```
### HPO 阶段
```
HPO trials: 10
HPO epochs: 25
```
### 最终训练
```
Final epochs: 25
```
## 静态模型性能
```
{
"accuracy": 0.962195,
"precision": 0.9634509520801372,
"recall": 0.96084,
"f1": 0.9621437047198954,
"auc": 0.9885095912500002
}
```
混淆矩阵:
```
[[96355 3645]
[ 3916 96084]]
```
# 在线检测架构
## DARTS 卷积神经网络
在线检测系统使用受 DARTS 启发的 CNN 架构搜索方法。
候选操作包括:
* sep_conv_3x3
* sep_conv_5x5
* dil_conv_3x3
* max_pool_3x3
* skip_connect
DARTS 使用验证性能自动选择最佳操作。
# 在线 DARTS 训练参数
```
Search epochs: 30
Final epochs: 100
Batch size: 96
Initial channels: 16
Number of blocks: 6
Dropout: 0.30
Weight learning rate: 0.0005
Architecture learning rate: 0.0003
Final learning rate: 0.0005
```
数据集分割:
```
70% training
15% validation
15% testing
```
# 在线 DARTS CNN 结果
```
{
"accuracy": 0.9499054820415879,
"precision": 0.949655537890832,
"recall": 0.9387113672079623,
"f1": 0.9441517386722866,
"auc": 0.9930457197221761
}
```
混淆矩阵:
```
[[2228 95]
[ 117 1792]]
```
# 图形用户界面功能
MALGUARD-X 的 GUI 设计为网络安全主题的指挥中心界面。
功能:
* 仪表板面板
* 静态 PE 扫描器
* 在线 DARTS 监视器
* 实时进程监控
* 风险可视化
* 报告清单系统
* 快照查看器
* 支持 HTML 和 JSON 导出
* 实时事件日志
# GUI 截图
## 启动屏幕

## 仪表板/报告部分

## 在线动态监控

## 静态恶意软件检测

# 使用的技术
## 编程语言
* Python
## 深度学习库
* PyTorch
* TensorFlow
* NumPy
* Pandas
* Scikit-learn
## GUI 框架
* PyQt5
## 恶意软件分析库
* pefile
* psutil
* hashlib
## 可视化/报告
* HTML
* JSON
* Matplotlib
# 项目工作流程
## 静态检测流程
```
PE File
↓
1649 Feature Extraction
↓
EMBER Feature Vector
↓
FFNN Model
↓
Malware Probability
↓
Risk Analysis
↓
HTML / JSON Report
```
## 在线检测流程
```
Live Process Metrics
↓
Behavior Snapshot Collection
↓
1x64x64 Image Conversion
↓
DARTS CNN
↓
Behavior Classification
↓
Live Monitoring Dashboard
```
# 运行方法
## 激活虚拟环境
```
.\.venv\Scripts\Activate.ps1
```
## 运行 GUI
```
python gui.py
```
## 静态恶意软件扫描
```
python .\src\predict_pe.py --file "sample.exe"
```
## 训练静态 FFNN
```
python .\src\train_paper_strict_ffnn.py --data .\data\processed\ember_static_dataset.npz --models-dir .\models --reports-dir .\reports --nas-trials 20 --nas-epochs 25 --hpo-trials 10 --hpo-epochs 25 --final-epochs 25
```
## 训练在线 DARTS CNN
```
python .\src\train_online_darts.py --data-dir .\data\online\train_cloud --models-dir .\models --reports-dir .\reports\online_darts_paper --search-epochs 30 --final-epochs 100 --batch-size 96 --init-channels 16 --num-blocks 6 --dropout 0.30 --weight-lr 0.0005 --arch-lr 0.0003 --final-lr 0.0005
```
# 未来改进
* 实时沙箱集成
* 多家族恶意软件分类
* 实时数据包检查
* 基于 Transformer 的恶意软件模型
* 威胁情报 API 集成
* 跨平台行为监控
* 云部署支持
标签:AI驱动, AMSI绕过, Apex, API分析, API安全, AutoML, DARTS CNN, DAST, EMBER 2018, HTML输出, JSON输出, PE文件分析, SHA256哈希, 云安全监控, 人工智能安全, 凭据扫描, 前馈神经网络, 卷积神经网络, 合规性, 威胁检测, 恶意软件分析, 机器学习, 架构优化, 深度学习, 深度学习模型, 熵计算, 特征提取, 网络安全, 行为监控, 逆向工具, 隐私保护, 静态分析