Desprajit/Explainable-Ransomware-Detection

GitHub: Desprajit/Explainable-Ransomware-Detection

一个结合集成学习与 Transformer 的动态行为勒索软件检测框架，重点在于利用 SHAP 实现可解释的早期检测。

Stars: 0 | Forks: 0

# 可解释的动态行为勒索软件检测 ### 面向早期分析的集成与 Transformer 方法对比评估 ## 📌 项目概述本项目专注于利用可解释机器学习模型进行动态行为勒索软件检测。项目比较了传统集成方法（Random Forest、SVM、Logistic Regression）、基于 Transformer 的深度学习以及混合集成策略的有效性。重点在于利用 SHAP 分析早期阶段的行为特征和可解释性。 ## 🌟 目标 * 基于动态行为特征检测勒索软件。 * 比较集成模型和 Transformer 模型的性能。 * 分析恶意软件家族行为（例如 Virlock、Vobfus、Shipup）。 * 利用高影响力的早期特征改进早期检测。 * 使用 SHAP（可解释 AI）解释模型决策。 ## 📁 数据集 * **来源**：自定义行为日志（包括 `virlock`、`vobfus`、`shipup` 等家族及 `benign` 良性样本） * **特征**：API 调用、文件访问、注册表键、互斥体 (Mutex) 等。 * **标签**：`1` = 勒索软件，`0` = 良性 * 包含按家族分类的标签以便进行更深入的分析 ## 📊 模型对比 | Model | Type | Explainability | | ------------------- | ---------------------------- | --------------- | | Logistic Regression | 传统 (Traditional) | ✅ SHAP | | SVM | 传统 (Traditional) | ✅ SHAP | | Random Forest | 集成 (Ensemble) | ✅ SHAP | | Transformer | 深度学习 (Deep Learning) | ✅ (黑盒 Black-box) | | Hybrid Ensemble | RF + Transformer | ✅ 平均概率 (Average Probs) | | Early RF Model | 具有前 3 个早期特征的 RF (RF with top 3 early features) | ✅ | ## 📊 结果摘要 * **最佳准确率 (Best Accuracy)**：Random Forest (`~98.8%`) * **最佳 ROC-AUC**：混合集成模型 (Hybrid Ensemble) (`~0.996`) * **最佳早期检测 (Best Early Detection)**：具有前 3 个特征的 RF (`executed_commands`, `files_accessed`, `resolved_apis`) ## 📊 关键图表 * 准确率与 ROC-AUC 对比 * SHAP 汇总图和蜂群图 * 家族级行为分析 * Transformer 混淆矩阵 * Random Forest 特征重要性 ## 🔍 可解释性工具 * **SHAP (TreeExplainer)**：特征影响的可视化解释 * **家族热力图**：展示特征在不同恶意软件类型间的变化 ## 🛠️ 安装 ``` git clone https://github.com/yourusername/ransomware-xai cd ransomware-xai pip install -r requirements.txt jupyter notebook ``` ## 📊 使用技术 * Python * Scikit-learn * PyTorch * Transformers * SHAP * Pandas / NumPy * Matplotlib / Seaborn * Jupyter Notebook ## 📄 引用本工作是 **Amrita Vishwa Vidyapeetham, Coimbatore** 数据科学理学硕士 (MSc Data Science) 项目的一部分。 **作者**：*Desprajit Karthi* ## 📆 许可证本项目仅限用于**学术和研究目的**。

标签：Apex, API调用分析, BSD, NoSQL, SHAP值, Shipup, Transformer模型, Virlock, Vobfus, 二分类, 凭据扫描, 动态行为分析, 勒索软件检测, 可解释人工智能, 威胁情报, 开发者工具, 支持向量机, 数据挖掘, 早期检测, 机器学习, 深度学习, 混合模型, 系统调用监控, 网络安全, 逆向工具, 逻辑回归, 随机森林, 隐私保护, 集成学习