sanathsuriya218/Zero-day-malware-detection-framework
GitHub: sanathsuriya218/Zero-day-malware-detection-framework
基于动态分析报告的混合行为表示学习框架,结合图建模、对比学习和集成检测来实现对零日恶意软件的鲁棒检测。
Stars: 0 | Forks: 0
# 零日恶意软件检测框架
## 基于动态分析报告的鲁棒零日恶意软件检测混合行为表示学习




## 概述
本项目提出了一种混合行为恶意软件检测框架,旨在利用动态分析报告实现鲁棒的零日勒索软件检测。
该框架结合了:
- 行为特征工程
- 基于图的行为建模
- 对比表示学习
- 混合集成检测
- 分布外 (OOD) 恶意软件检测
- 零日恶意软件评估
该系统通过分析沙箱生成的 JSON 执行报告,来识别跨越多个勒索软件家族的恶意行为模式。
## 提出的框架
## 提出的框架
```
Dynamic Analysis Reports (Sandbox JSON Logs)
│
▼
Behavioral Data Preprocessing
(JSON Parsing, Cleaning, Feature Extraction, Normalization)
│
▼
Behavioral Feature Engineering
(API Activity, File Operations, Registry Access,
Entropy, Density, System Modification Metrics)
│
▼
Graph-Based Behavioral Modeling
(Behavior Interaction Graph Construction,
Graph Density, Clustering Coefficient)
│
▼
Contrastive Behavioral Representation Learning
(Latent Behavioral Embedding Generation)
│
▼
Hybrid Malware Detection Framework
┌───────────────────────────────┐
│ Classical ML Models │
│ • Logistic Regression │
│ • Support Vector Machine │
│ • Random Forest │
└───────────────────────────────┘
+
┌───────────────────────────────┐
│ Embedding-Based Classifier │
│ • Behavioral Embedding Model │
└───────────────────────────────┘
│
▼
Hybrid Ensemble Detection
│
▼
Zero-Day Malware Evaluation
(Leave-One-Family-Out Testing,
Unseen Malware Detection)
│
▼
Advanced Behavioral Analysis
• Out-of-Distribution Detection
• Behavioral Drift Analysis
• Statistical KS-Test Analysis
• Ablation Study
│
▼
Performance Evaluation
(Accuracy, Precision, Recall,
F1-Score, ROC-AUC)
│
▼
Robust Zero-Day Malware Detection System
```
## 数据集
动态分析报告收集自沙箱执行日志,包含:
- API 活动
- 文件操作
- 注册表交互
- Mutex 活动
- 命令执行行为
### 数据集统计
| 类别 | 样本数 |
|----------|----------|
| 恶意软件 | 17,676 |
| 良性软件 | 8,600 |
| 总计 | 26,276 |
### 恶意软件家族
- Virlock
- Vobfus
- Shipup
## 行为特征工程
该框架提取了高级行为特征,包括:
- API 活动指标
- 文件访问行为
- 注册表访问行为
- 行为熵
- API 密度
- 系统修改得分
- 图结构指标
## 基于图的行为建模
行为交互被建模为有向图,以捕获以下各项之间的结构关系:
- API 调用
- 文件操作
- 注册表活动
- 进程执行模式
提取的图指标包括:
- 图密度
- 聚类系数
- 行为结构特征
## 表示学习
实现了对比行为表示学习,以生成鲁棒的潜在行为嵌入,用于:
- 恶意软件家族区分
- 零日泛化
- 行为聚类
## 已实现的模型
### 经典机器学习
- Logistic Regression
- Support Vector Machine (SVM)
- Random Forest
### 深度学习
- 行为表示学习
### 混合框架
- 集成恶意软件检测
## 实验结果
| 模型 | 准确率 | ROC-AUC |
|------|------|------|
| Logistic Regression | 97% | 0.98 |
| SVM | 98% | 0.99 |
| Random Forest | 98.7% | 0.998 |
| 混合集成 | 99% | 0.999 |
### 主要发现
- 强大的零日恶意软件泛化能力
- 有效的恶意软件行为嵌入分离
- 对行为扰动具有高鲁棒性
- 使用图增强特征提高了检测性能
## 零日恶意软件评估
执行了留一家族交叉测试,以评估对先前未见过的勒索软件家族的检测能力。
该框架在多种恶意软件变体中展现出了强大的泛化性能。
## 分布外 (OOD) 检测
实现了 OOD 检测,以识别训练分布之外的异常行为模式。
这增强了对新型和不断演变的恶意软件行为的鲁棒性。
## 统计行为分析
执行了 Kolmogorov–Smirnov (KS) 统计分析,以识别区分恶意软件家族与良性软件的判别性行为特征。
## 项目结构
```
zero-day-malware-detection-framework/
│
├── data/
├── notebooks/
├── images/
├── models/
├── requirements.txt
├── README.md
└── LICENSE
```
## 安装
```
git clone https://github.com/yourusername/zero-day-malware-detection-framework.git
cd zero-day-malware-detection-framework
pip install -r requirements.txt
```
## 运行
启动 Notebook:
```
jupyter notebook
```
## 使用的技术
- Python
- PyTorch
- Scikit-learn
- NetworkX
- Pandas
- NumPy
- Matplotlib
- SHAP
## 研究贡献
- 混合图-统计行为建模
- 对比行为表示学习
- 零日勒索软件评估
- 分布外恶意软件检测
- 使用 KS 检验的行为统计分析
## 引用
```
@article{behavioralmalware2025,
title={Hybrid Behavioral Representation Learning for Robust Zero-Day Malware Detection},
author={Your Name},
year={2025}
}
```
## 许可证
本项目基于 MIT 许可证授权。
标签:Apex, API行为分析, HTTP工具, OOD检测, Python, PyTorch, 凭据扫描, 分布外检测, 勒索软件检测, 图神经网络, 威胁情报, 子域名枚举, 对比学习, 开发者工具, 异常检测, 无后门, 机器学习, 沙箱报告分析, 深度学习, 特征工程, 特权检测, 系统安全, 网络安全, 网络安全审计, 行为表征学习, 逆向工具, 隐私保护, 集成学习, 零日恶意软件检测