aaysenr/MalwareGuard-AI
GitHub: aaysenr/MalwareGuard-AI
一个结合静态分析、YARA 规则与 CNN/RF/XGBoost 的混合深度学习系统,用于对二进制文件进行视觉与行为级恶意检测并提供可解释结果。
Stars: 0 | Forks: 0
# MalwareGuard AI: 混合恶意软件检测系统
MalwareGuard AI 是一个专业级安全系统,结合传统静态分析与先进的机器学习(ML)和深度学习(DL)架构,用于检测恶意可执行文件。
## 🛠 核心技术与模型
### 1. 机器学习与深度学习
本项目采用 **混合集成(Hybrid Ensemble)** 方法,以确保高准确率和抗混淆能力:
* **随机森林(RF):** 基于 PE 头元数据的表格分类器。
* **XGBoost(XGB):** 用于表格数据分类的高性能梯度提升。
* **CNN(卷积神经网络):** 深度学习模型(TensorFlow/Keras),将二进制文件分析为 **256x256 灰度图像** 以检测恶意模式的视觉特征。
* **多数投票集成(Majority Voting Ensemble):** 聚合所有模型的预测结果以得出最终判决的共识机制。
### 2. 静态分析与网络安全工具
* **pefile:** 解析 Windows 可移植可执行(PE)头以提取元数据。
* **YAML(yara-python):** 基于已知威胁模式的标准签名匹配。
* **静态启发式(Static Heuristics):** 基于熵和可疑 API 组合的自定义规则检测。
* **MITRE ATT&CK 映射(Mapping):** 将检测到的行为映射到标准化网络攻击战术(例如:进程注入、伪装)。
### 3. 可解释人工智能(XAI)
* **SHAP(SHapley Additive exPlanations):** 通过可视化具体特征(如熵或文件大小)对模型决策的贡献程度来提供透明度。
### 4. 后端与用户界面
* **Flask:** 用于仪表板和 API 的 Python Web 框架。
* **Pillow(PIL):** 处理二进制到图像的转换,供 CNN 处理使用。
## 🧠 技术深度解析
### “魔法 6” 特征提取
为避免使用拖慢系统的数千个特征,我们提取了 **6 个最关键信号** 用于实时分析:
1. **熵(Entropy):** 衡量文件复杂性以检测加密或打包。
2. **节数量(Number of Sections):** 识别 PE 文件中不寻常的结构。
3. **导入数量(Number of Imports):** 跟踪外部库调用。
4. **文件大小(File Size):** 检测异常的文件膨胀或微型“投放器”二进制文件。
5. **是否打包(Is Packed):** 压缩工具(如 UPX)的启发式标志。
6. **可疑 API 调用(Suspicious API Calls):** 统计危险 Windows 函数(例如:`VirtualAllocEx`)的数量。
### 🖼 二维字节重塑(视觉恶意软件分析)
每个二进制文件本质上都是一个字节数组(0-255)。MalwareGuard AI 将这些字节转换为灰度像素(0:黑色,255:白色)并重塑为 256x256 图像。
* **纹理识别(Texture Recognition):** 恶意软件变种即使代码被混淆,也常具有相似的视觉纹理。
* **CNN 能力(CNN Power):** 我们的 CNN 模型能够识别传统扫描器可能遗漏的“恶意纹理”。
### 🔢 香农熵分析
我们使用 **香农熵公式**($H = - \sum P(x) \log_2 P(x)$)来衡量文件内的混乱程度。
* **得分 0-6.0:** 典型的人类编写代码(可预测的模式)。
* **得分 7.5-8.0:** 表示高随机性,通常由强加密或打包引起——这是恶意软件的显著红旗。
## 📦 安装与设置
1. **克隆项目** 并进入目录。
2. **安装依赖项:**
pip install -r requirements.txt
3. **准备数据集并训练模型:**(仅需一次)
python main.py
4. **运行 Web 界面:**
python app.py
5. 访问仪表板:`http://127.0.0.1:5000`
## 📊 报告与可视化
要重新生成性能指标和模型评估图表,请运行:
```
python generate_outputs.py
python generate_advanced_visuals.py
```
* 输出将保存在 `outputs/` 目录中。
## ⚖️ 伦理免责声明
本工具仅供教育和研究用途。请勿用于非法活动。始终在受控、隔离的环境(沙箱/虚拟机)中处理可疑恶意软件样本。
标签:256x256灰度图像, AMSI绕过, Apex, API, Cloudflare, CNN, CSV导出, DNS信息、DNS暴力破解, DNS 反向解析, Flask, MITRE ATT&CK, PB级数据处理, pefile, PE文件, Pillow, SEO关键词, SHAP, SSH蜜罐, Web仪表板, XGBoost, YARA规则, 二进制图像处理, 云安全监控, 可视化分析, 可解释AI, 多数投票, 威胁检测, 安全运维, 实时检测, 数据库接管, 机器学习, 深度学习, 混合检测, 熵分析, 特征提取, 进程注入, 逆向工具, 随机森林, 集成学习, 静态分析, 静态启发式