Desprajit/Explainable-Ransomware-Detection
GitHub: Desprajit/Explainable-Ransomware-Detection
一个结合集成学习与 Transformer 的动态行为勒索软件检测框架,重点在于利用 SHAP 实现可解释的早期检测。
Stars: 0 | Forks: 0
# 可解释的动态行为勒索软件检测
### 面向早期分析的集成与 Transformer 方法对比评估
## 📌 项目概述
本项目专注于利用可解释机器学习模型进行动态行为勒索软件检测。项目比较了传统集成方法(Random Forest、SVM、Logistic Regression)、基于 Transformer 的深度学习以及混合集成策略的有效性。重点在于利用 SHAP 分析早期阶段的行为特征和可解释性。
## 🌟 目标
* 基于动态行为特征检测勒索软件。
* 比较集成模型和 Transformer 模型的性能。
* 分析恶意软件家族行为(例如 Virlock、Vobfus、Shipup)。
* 利用高影响力的早期特征改进早期检测。
* 使用 SHAP(可解释 AI)解释模型决策。
## 📁 数据集
* **来源**:自定义行为日志(包括 `virlock`、`vobfus`、`shipup` 等家族及 `benign` 良性样本)
* **特征**:API 调用、文件访问、注册表键、互斥体 (Mutex) 等。
* **标签**:`1` = 勒索软件,`0` = 良性
* 包含按家族分类的标签以便进行更深入的分析
## 📊 模型对比
| Model | Type | Explainability |
| ------------------- | ---------------------------- | --------------- |
| Logistic Regression | 传统 (Traditional) | ✅ SHAP |
| SVM | 传统 (Traditional) | ✅ SHAP |
| Random Forest | 集成 (Ensemble) | ✅ SHAP |
| Transformer | 深度学习 (Deep Learning) | ✅ (黑盒 Black-box) |
| Hybrid Ensemble | RF + Transformer | ✅ 平均概率 (Average Probs) |
| Early RF Model | 具有前 3 个早期特征的 RF (RF with top 3 early features) | ✅ |
## 📊 结果摘要
* **最佳准确率 (Best Accuracy)**:Random Forest (`~98.8%`)
* **最佳 ROC-AUC**:混合集成模型 (Hybrid Ensemble) (`~0.996`)
* **最佳早期检测 (Best Early Detection)**:具有前 3 个特征的 RF (`executed_commands`, `files_accessed`, `resolved_apis`)
## 📊 关键图表
* 准确率与 ROC-AUC 对比
* SHAP 汇总图和蜂群图
* 家族级行为分析
* Transformer 混淆矩阵
* Random Forest 特征重要性
## 🔍 可解释性工具
* **SHAP (TreeExplainer)**:特征影响的可视化解释
* **家族热力图**:展示特征在不同恶意软件类型间的变化
## 🛠️ 安装
```
git clone https://github.com/yourusername/ransomware-xai
cd ransomware-xai
pip install -r requirements.txt
jupyter notebook
```
## 📊 使用技术
* Python
* Scikit-learn
* PyTorch
* Transformers
* SHAP
* Pandas / NumPy
* Matplotlib / Seaborn
* Jupyter Notebook
## 📄 引用
本工作是 **Amrita Vishwa Vidyapeetham, Coimbatore** 数据科学理学硕士 (MSc Data Science) 项目的一部分。
**作者**:*Desprajit Karthi*
## 📆 许可证
本项目仅限用于**学术和研究目的**。
标签:Apex, API调用分析, BSD, NoSQL, SHAP值, Shipup, Transformer模型, Virlock, Vobfus, 二分类, 凭据扫描, 动态行为分析, 勒索软件检测, 可解释人工智能, 威胁情报, 开发者工具, 支持向量机, 数据挖掘, 早期检测, 机器学习, 深度学习, 混合模型, 系统调用监控, 网络安全, 逆向工具, 逻辑回归, 随机森林, 隐私保护, 集成学习