aaysenr/MalwareGuard-AI

GitHub: aaysenr/MalwareGuard-AI

一个结合静态分析、YARA 规则与 CNN/RF/XGBoost 的混合深度学习系统，用于对二进制文件进行视觉与行为级恶意检测并提供可解释结果。

Stars: 0 | Forks: 0

# MalwareGuard AI: 混合恶意软件检测系统 MalwareGuard AI 是一个专业级安全系统，结合传统静态分析与先进的机器学习（ML）和深度学习（DL）架构，用于检测恶意可执行文件。 ## 🛠 核心技术与模型 ### 1. 机器学习与深度学习本项目采用 **混合集成（Hybrid Ensemble）** 方法，以确保高准确率和抗混淆能力： * **随机森林（RF）：** 基于 PE 头元数据的表格分类器。 * **XGBoost（XGB）：** 用于表格数据分类的高性能梯度提升。 * **CNN（卷积神经网络）：** 深度学习模型（TensorFlow/Keras），将二进制文件分析为 **256x256 灰度图像** 以检测恶意模式的视觉特征。 * **多数投票集成（Majority Voting Ensemble）：** 聚合所有模型的预测结果以得出最终判决的共识机制。 ### 2. 静态分析与网络安全工具 * **pefile：** 解析 Windows 可移植可执行（PE）头以提取元数据。 * **YAML（yara-python）：** 基于已知威胁模式的标准签名匹配。 * **静态启发式（Static Heuristics）：** 基于熵和可疑 API 组合的自定义规则检测。 * **MITRE ATT&CK 映射（Mapping）：** 将检测到的行为映射到标准化网络攻击战术（例如：进程注入、伪装）。 ### 3. 可解释人工智能（XAI） * **SHAP（SHapley Additive exPlanations）：** 通过可视化具体特征（如熵或文件大小）对模型决策的贡献程度来提供透明度。 ### 4. 后端与用户界面 * **Flask：** 用于仪表板和 API 的 Python Web 框架。 * **Pillow（PIL）：** 处理二进制到图像的转换，供 CNN 处理使用。 ## 🧠 技术深度解析 ### “魔法 6” 特征提取为避免使用拖慢系统的数千个特征，我们提取了 **6 个最关键信号** 用于实时分析： 1. **熵（Entropy）：** 衡量文件复杂性以检测加密或打包。 2. **节数量（Number of Sections）：** 识别 PE 文件中不寻常的结构。 3. **导入数量（Number of Imports）：** 跟踪外部库调用。 4. **文件大小（File Size）：** 检测异常的文件膨胀或微型“投放器”二进制文件。 5. **是否打包（Is Packed）：** 压缩工具（如 UPX）的启发式标志。 6. **可疑 API 调用（Suspicious API Calls）：** 统计危险 Windows 函数（例如：`VirtualAllocEx`）的数量。 ### 🖼 二维字节重塑（视觉恶意软件分析）每个二进制文件本质上都是一个字节数组（0-255）。MalwareGuard AI 将这些字节转换为灰度像素（0：黑色，255：白色）并重塑为 256x256 图像。 * **纹理识别（Texture Recognition）：** 恶意软件变种即使代码被混淆，也常具有相似的视觉纹理。 * **CNN 能力（CNN Power）：** 我们的 CNN 模型能够识别传统扫描器可能遗漏的“恶意纹理”。 ### 🔢 香农熵分析我们使用 **香农熵公式**（$H = - \sum P(x) \log_2 P(x)$）来衡量文件内的混乱程度。 * **得分 0-6.0：** 典型的人类编写代码（可预测的模式）。 * **得分 7.5-8.0：** 表示高随机性，通常由强加密或打包引起——这是恶意软件的显著红旗。 ## 📦 安装与设置 1. **克隆项目** 并进入目录。 2. **安装依赖项：** pip install -r requirements.txt 3. **准备数据集并训练模型：**（仅需一次） python main.py 4. **运行 Web 界面：** python app.py 5. 访问仪表板：`http://127.0.0.1:5000` ## 📊 报告与可视化要重新生成性能指标和模型评估图表，请运行： ``` python generate_outputs.py python generate_advanced_visuals.py ``` * 输出将保存在 `outputs/` 目录中。 ## ⚖️ 伦理免责声明本工具仅供教育和研究用途。请勿用于非法活动。始终在受控、隔离的环境（沙箱/虚拟机）中处理可疑恶意软件样本。

标签：256x256灰度图像, AMSI绕过, Apex, API, Cloudflare, CNN, CSV导出, DNS信息、DNS暴力破解, DNS 反向解析, Flask, MITRE ATT&CK, PB级数据处理, pefile, PE文件, Pillow, SEO关键词, SHAP, SSH蜜罐, Web仪表板, XGBoost, YARA规则, 二进制图像处理, 云安全监控, 可视化分析, 可解释AI, 多数投票, 威胁检测, 安全运维, 实时检测, 数据库接管, 机器学习, 深度学习, 混合检测, 熵分析, 特征提取, 进程注入, 逆向工具, 随机森林, 集成学习, 静态分析, 静态启发式