NikamShivprasad/MalGuard_Malware-detection

GitHub: NikamShivprasad/MalGuard_Malware-detection

一个基于机器学习的端到端恶意软件检测平台,以高精度识别未知威胁并可视化分析结果。

Stars: 0 | Forks: 0

# MalGuard - 精英级机器学习驱动的恶意软件检测 🛡️ MalGuard 是一个专业级的全栈恶意软件检测平台,旨在利用先进的集成学习以极高精度识别恶意二进制文件。训练于完整的 EMBER 2018 数据集(800,000+ 样本),MalGuard 达到 **99.23% 准确率** 和近完美的 **0.9996 ROC-AUC**。 ![MalGuard](https://img.shields.io/badge/MalGuard-v2.0.0--Elite-blue) ![Accuracy](https://img.shields.io/badge/Accuracy-99.23%25-brightgreen) ![AUC](https://img.shields.io/badge/ROC--AUC-0.9996-blueviolet) ![Python](https://img.shields.io/badge/Python-3.8+-green) ## 🚀 关键特性 - **精英集成引擎**:加权集成 LightGBM(校准)与随机森林,优化至 99%+ 准确率。 - **完整 EMBER 2018 训练**:利用 800,000 个标记二进制文件实现强大的无签名检测。 - **交互式性能洞察**:专用仪表板,支持实时 ROC 曲线与混淆矩阵可视化。 - **稳健的数据库基础设施**:混合 MongoDB Atlas 支持,与本地 SQLite 的无缝自动降级以实现零停机可用性。 - **完整扫描历史**:全面的历史管理,支持高级玻璃拟态 UI 与自定义确认工作流。 - **对抗弹性**:优化的特征提取,包括熵分析、PE 头检查与可疑覆盖层检测。 ## 📁 项目结构 ``` malguard/ ├── ml/ │ ├── train_advanced.py # Elite binary-memmap training pipeline │ ├── generate_performance_plots.py # Technical visualization suite │ ├── validate_scan.py # Automated API validation utility │ ├── feature_engineering.py# Advanced EMBER feature extraction │ └── saved_models/ # High-fidelity serialized models ├── backend/ │ ├── main.py # FastAPI core with static plot serving │ ├── auth.py # Hybrid Database & Auth logic │ ├── routers/ # Modular Scan, Auth, and History routers │ └── services/ # Core Scanner and ML logic ├── frontend/ │ ├── src/components/ # Premium React UI (History, Performance, Dashboard) │ └── src/services/api.js # Robust Axios-powered communication layer └── README.md ``` ## 📊 性能里程碑 系统在 EMBER 2018 测试集(200,000 样本)上进行评估,取得以下指标: | 指标 | 得分 | 状态 | | :--- | :--- | :--- | | 准确率 | 99.23% | 💎 精英 | | 召回率(敏感度) | 99.38% | 💎 精英 | | 精确率 | 99.09% | 💎 精英 | | ROC-AUC | 0.9996 | 💎 精英 | ## 🛠️ 快速开始 按照以下步骤在本地运行副本。 ### 1. 克隆仓库 ``` git clone https://github.com/your-username/Malware_Detection.git cd Malware_Detection ``` ### 2. 后端设置 创建虚拟环境并安装依赖: ``` python -m venv venv # Windows .\venv\Scripts\activate # Linux/Mac source venv/bin/activate pip install -r backend/requirements.txt ``` ### 3. 前端设置 安装必要的 Node.js 包: ``` cd frontend npm install cd .. ``` ### 4. 运行应用 同时启动后端与前端: ``` # 终端 1:后端 uvicorn backend.main:app --host 0.0.0.0 --port 8000 # 终端 2:前端 cd frontend npm start ``` 应用将在 `http://localhost:3000` 可用。 ## ⚙️ 高级配置 ### 数据库选项 MalGuard 自动管理其连接。可以通过在 `.env` 文件中设置 `DB_FORCE_SQLITE=true` 强制本地仅模式。 ### 高级训练流程 若要在完整 EMBER 数据集上重新训练模型: ``` python ml/train_advanced.py ``` 该脚本使用直接 memmap 访问以高效处理 800k 样本。 ### 可视化性能 生成技术 ROC 与混淆矩阵图表: ``` python ml/generate_performance_plots.py ``` ## 🎯 使用方法 1. **扫描**:上传任意 PE 二进制文件(.exe、.dll)以获取即时风险评估。 2. **历史**:通过顶部导航的 **历史** 标签回顾所有过往扫描。 3. **分析**:使用 **性能** 标签验证模型的技术准确性证明。 ## 🧠 机器学习技术架构 1. **特征向量**:基于 EMBER 规范的 2,381 维向量。 2. **建模**:LightGBM(70% 权重) + 随机森林(30% 权重)。 3. **校准**:使用概率的等渗回归以确保 99%+ 可靠性。 **Happy (and safe) analyzing! 🛡️**
标签:Apex, AV绕过, EMBER 2018, FastAPI, LightGBM, MongoDB, PE头检查, Python, ROC, SQLite, Web界面, 二分类, 云端数据库, 全栈, 安全运营, 对抗样本, 异常检测, 性能指标, 扫描历史, 扫描框架, 数据库, 文件扫描, 无后门, 本地持久化, 机器学习, 模型验证, 混淆矩阵, 混淆矩阵可视化, 熵分析, 特征工程, 玻璃拟态UI, 端到端, 网页爬虫, 自动化验证, 逆向工具, 随机森林, 集成学习, 零停机, 预测结果, 高性能计算