sanathsuriya218/Zero-day-malware-detection-framework

GitHub: sanathsuriya218/Zero-day-malware-detection-framework

基于动态分析报告的混合行为表示学习框架,结合图建模、对比学习和集成检测来实现对零日恶意软件的鲁棒检测。

Stars: 0 | Forks: 0

# 零日恶意软件检测框架 ## 基于动态分析报告的鲁棒零日恶意软件检测混合行为表示学习 ![Python](https://img.shields.io/badge/Python-3.10-blue) ![PyTorch](https://img.shields.io/badge/PyTorch-DeepLearning-red) ![Cybersecurity](https://img.shields.io/badge/Domain-Cybersecurity-green) ![Status](https://img.shields.io/badge/Project-Research--Level-success) ## 概述 本项目提出了一种混合行为恶意软件检测框架,旨在利用动态分析报告实现鲁棒的零日勒索软件检测。 该框架结合了: - 行为特征工程 - 基于图的行为建模 - 对比表示学习 - 混合集成检测 - 分布外 (OOD) 恶意软件检测 - 零日恶意软件评估 该系统通过分析沙箱生成的 JSON 执行报告,来识别跨越多个勒索软件家族的恶意行为模式。 ## 提出的框架 ## 提出的框架 ``` Dynamic Analysis Reports (Sandbox JSON Logs) │ ▼ Behavioral Data Preprocessing (JSON Parsing, Cleaning, Feature Extraction, Normalization) │ ▼ Behavioral Feature Engineering (API Activity, File Operations, Registry Access, Entropy, Density, System Modification Metrics) │ ▼ Graph-Based Behavioral Modeling (Behavior Interaction Graph Construction, Graph Density, Clustering Coefficient) │ ▼ Contrastive Behavioral Representation Learning (Latent Behavioral Embedding Generation) │ ▼ Hybrid Malware Detection Framework ┌───────────────────────────────┐ │ Classical ML Models │ │ • Logistic Regression │ │ • Support Vector Machine │ │ • Random Forest │ └───────────────────────────────┘ + ┌───────────────────────────────┐ │ Embedding-Based Classifier │ │ • Behavioral Embedding Model │ └───────────────────────────────┘ │ ▼ Hybrid Ensemble Detection │ ▼ Zero-Day Malware Evaluation (Leave-One-Family-Out Testing, Unseen Malware Detection) │ ▼ Advanced Behavioral Analysis • Out-of-Distribution Detection • Behavioral Drift Analysis • Statistical KS-Test Analysis • Ablation Study │ ▼ Performance Evaluation (Accuracy, Precision, Recall, F1-Score, ROC-AUC) │ ▼ Robust Zero-Day Malware Detection System ``` ## 数据集 动态分析报告收集自沙箱执行日志,包含: - API 活动 - 文件操作 - 注册表交互 - Mutex 活动 - 命令执行行为 ### 数据集统计 | 类别 | 样本数 | |----------|----------| | 恶意软件 | 17,676 | | 良性软件 | 8,600 | | 总计 | 26,276 | ### 恶意软件家族 - Virlock - Vobfus - Shipup ## 行为特征工程 该框架提取了高级行为特征,包括: - API 活动指标 - 文件访问行为 - 注册表访问行为 - 行为熵 - API 密度 - 系统修改得分 - 图结构指标 ## 基于图的行为建模 行为交互被建模为有向图,以捕获以下各项之间的结构关系: - API 调用 - 文件操作 - 注册表活动 - 进程执行模式 提取的图指标包括: - 图密度 - 聚类系数 - 行为结构特征 ## 表示学习 实现了对比行为表示学习,以生成鲁棒的潜在行为嵌入,用于: - 恶意软件家族区分 - 零日泛化 - 行为聚类 ## 已实现的模型 ### 经典机器学习 - Logistic Regression - Support Vector Machine (SVM) - Random Forest ### 深度学习 - 行为表示学习 ### 混合框架 - 集成恶意软件检测 ## 实验结果 | 模型 | 准确率 | ROC-AUC | |------|------|------| | Logistic Regression | 97% | 0.98 | | SVM | 98% | 0.99 | | Random Forest | 98.7% | 0.998 | | 混合集成 | 99% | 0.999 | ### 主要发现 - 强大的零日恶意软件泛化能力 - 有效的恶意软件行为嵌入分离 - 对行为扰动具有高鲁棒性 - 使用图增强特征提高了检测性能 ## 零日恶意软件评估 执行了留一家族交叉测试,以评估对先前未见过的勒索软件家族的检测能力。 该框架在多种恶意软件变体中展现出了强大的泛化性能。 ## 分布外 (OOD) 检测 实现了 OOD 检测,以识别训练分布之外的异常行为模式。 这增强了对新型和不断演变的恶意软件行为的鲁棒性。 ## 统计行为分析 执行了 Kolmogorov–Smirnov (KS) 统计分析,以识别区分恶意软件家族与良性软件的判别性行为特征。 ## 项目结构 ``` zero-day-malware-detection-framework/ │ ├── data/ ├── notebooks/ ├── images/ ├── models/ ├── requirements.txt ├── README.md └── LICENSE ``` ## 安装 ``` git clone https://github.com/yourusername/zero-day-malware-detection-framework.git cd zero-day-malware-detection-framework pip install -r requirements.txt ``` ## 运行 启动 Notebook: ``` jupyter notebook ``` ## 使用的技术 - Python - PyTorch - Scikit-learn - NetworkX - Pandas - NumPy - Matplotlib - SHAP ## 研究贡献 - 混合图-统计行为建模 - 对比行为表示学习 - 零日勒索软件评估 - 分布外恶意软件检测 - 使用 KS 检验的行为统计分析 ## 引用 ``` @article{behavioralmalware2025, title={Hybrid Behavioral Representation Learning for Robust Zero-Day Malware Detection}, author={Your Name}, year={2025} } ``` ## 许可证 本项目基于 MIT 许可证授权。
标签:Apex, API行为分析, HTTP工具, OOD检测, Python, PyTorch, 凭据扫描, 分布外检测, 勒索软件检测, 图神经网络, 威胁情报, 子域名枚举, 对比学习, 开发者工具, 异常检测, 无后门, 机器学习, 沙箱报告分析, 深度学习, 特征工程, 特权检测, 系统安全, 网络安全, 网络安全审计, 行为表征学习, 逆向工具, 隐私保护, 集成学习, 零日恶意软件检测