sanathsuriya218/Zero-day-malware-detection-framework

GitHub: sanathsuriya218/Zero-day-malware-detection-framework

基于动态分析报告的混合行为表示学习框架，结合图建模、对比学习和集成检测来实现对零日恶意软件的鲁棒检测。

Stars: 0 | Forks: 0

# 零日恶意软件检测框架 ## 基于动态分析报告的鲁棒零日恶意软件检测混合行为表示学习 ![Python](https://img.shields.io/badge/Python-3.10-blue) ![PyTorch](https://img.shields.io/badge/PyTorch-DeepLearning-red) ![Cybersecurity](https://img.shields.io/badge/Domain-Cybersecurity-green) ![Status](https://img.shields.io/badge/Project-Research--Level-success) ## 概述本项目提出了一种混合行为恶意软件检测框架，旨在利用动态分析报告实现鲁棒的零日勒索软件检测。该框架结合了： - 行为特征工程 - 基于图的行为建模 - 对比表示学习 - 混合集成检测 - 分布外 (OOD) 恶意软件检测 - 零日恶意软件评估该系统通过分析沙箱生成的 JSON 执行报告，来识别跨越多个勒索软件家族的恶意行为模式。 ## 提出的框架 ## 提出的框架 ``` Dynamic Analysis Reports (Sandbox JSON Logs) │ ▼ Behavioral Data Preprocessing (JSON Parsing, Cleaning, Feature Extraction, Normalization) │ ▼ Behavioral Feature Engineering (API Activity, File Operations, Registry Access, Entropy, Density, System Modification Metrics) │ ▼ Graph-Based Behavioral Modeling (Behavior Interaction Graph Construction, Graph Density, Clustering Coefficient) │ ▼ Contrastive Behavioral Representation Learning (Latent Behavioral Embedding Generation) │ ▼ Hybrid Malware Detection Framework ┌───────────────────────────────┐ │ Classical ML Models │ │ • Logistic Regression │ │ • Support Vector Machine │ │ • Random Forest │ └───────────────────────────────┘ + ┌───────────────────────────────┐ │ Embedding-Based Classifier │ │ • Behavioral Embedding Model │ └───────────────────────────────┘ │ ▼ Hybrid Ensemble Detection │ ▼ Zero-Day Malware Evaluation (Leave-One-Family-Out Testing, Unseen Malware Detection) │ ▼ Advanced Behavioral Analysis • Out-of-Distribution Detection • Behavioral Drift Analysis • Statistical KS-Test Analysis • Ablation Study │ ▼ Performance Evaluation (Accuracy, Precision, Recall, F1-Score, ROC-AUC) │ ▼ Robust Zero-Day Malware Detection System ``` ## 数据集动态分析报告收集自沙箱执行日志，包含： - API 活动 - 文件操作 - 注册表交互 - Mutex 活动 - 命令执行行为 ### 数据集统计 | 类别 | 样本数 | |----------|----------| | 恶意软件 | 17,676 | | 良性软件 | 8,600 | | 总计 | 26,276 | ### 恶意软件家族 - Virlock - Vobfus - Shipup ## 行为特征工程该框架提取了高级行为特征，包括： - API 活动指标 - 文件访问行为 - 注册表访问行为 - 行为熵 - API 密度 - 系统修改得分 - 图结构指标 ## 基于图的行为建模行为交互被建模为有向图，以捕获以下各项之间的结构关系： - API 调用 - 文件操作 - 注册表活动 - 进程执行模式提取的图指标包括： - 图密度 - 聚类系数 - 行为结构特征 ## 表示学习实现了对比行为表示学习，以生成鲁棒的潜在行为嵌入，用于： - 恶意软件家族区分 - 零日泛化 - 行为聚类 ## 已实现的模型 ### 经典机器学习 - Logistic Regression - Support Vector Machine (SVM) - Random Forest ### 深度学习 - 行为表示学习 ### 混合框架 - 集成恶意软件检测 ## 实验结果 | 模型 | 准确率 | ROC-AUC | |------|------|------| | Logistic Regression | 97% | 0.98 | | SVM | 98% | 0.99 | | Random Forest | 98.7% | 0.998 | | 混合集成 | 99% | 0.999 | ### 主要发现 - 强大的零日恶意软件泛化能力 - 有效的恶意软件行为嵌入分离 - 对行为扰动具有高鲁棒性 - 使用图增强特征提高了检测性能 ## 零日恶意软件评估执行了留一家族交叉测试，以评估对先前未见过的勒索软件家族的检测能力。该框架在多种恶意软件变体中展现出了强大的泛化性能。 ## 分布外 (OOD) 检测实现了 OOD 检测，以识别训练分布之外的异常行为模式。这增强了对新型和不断演变的恶意软件行为的鲁棒性。 ## 统计行为分析执行了 Kolmogorov–Smirnov (KS) 统计分析，以识别区分恶意软件家族与良性软件的判别性行为特征。 ## 项目结构 ``` zero-day-malware-detection-framework/ │ ├── data/ ├── notebooks/ ├── images/ ├── models/ ├── requirements.txt ├── README.md └── LICENSE ``` ## 安装 ``` git clone https://github.com/yourusername/zero-day-malware-detection-framework.git cd zero-day-malware-detection-framework pip install -r requirements.txt ``` ## 运行启动 Notebook： ``` jupyter notebook ``` ## 使用的技术 - Python - PyTorch - Scikit-learn - NetworkX - Pandas - NumPy - Matplotlib - SHAP ## 研究贡献 - 混合图-统计行为建模 - 对比行为表示学习 - 零日勒索软件评估 - 分布外恶意软件检测 - 使用 KS 检验的行为统计分析 ## 引用 ``` @article{behavioralmalware2025, title={Hybrid Behavioral Representation Learning for Robust Zero-Day Malware Detection}, author={Your Name}, year={2025} } ``` ## 许可证本项目基于 MIT 许可证授权。

标签：Apex, API行为分析, HTTP工具, OOD检测, Python, PyTorch, 凭据扫描, 分布外检测, 勒索软件检测, 图神经网络, 威胁情报, 子域名枚举, 对比学习, 开发者工具, 异常检测, 无后门, 机器学习, 沙箱报告分析, 深度学习, 特征工程, 特权检测, 系统安全, 网络安全, 网络安全审计, 行为表征学习, 逆向工具, 隐私保护, 集成学习, 零日恶意软件检测