vkmahalakshmi03/hybrid-ransomware-detection

GitHub: vkmahalakshmi03/hybrid-ransomware-detection

该项目是一篇勒索软件检测研究综述，通过对比签名、行为和机器学习三类方法，提出了一种融合三者的混合检测模型架构。

Stars: 0 | Forks: 0

# 勒索软件检测综述 - 混合检测模型 **作者：** Mahalakshmi Karthikeyan ## 1. 问题陈述勒索软件攻击已成为最具破坏性的网络安全威胁之一，它通过加密受害者数据并勒索赎金。它们将目标对准政府、医疗机构和各种规模的企业，造成严重的运营和财务损失。尽管检测技术不断进步，但没有任何单一方法能够应对所有的威胁场景： - **基于签名的检测**速度快且精确，但对其从未见过的新型和多态勒索软件变体完全盲目 - **行为检测**能够捕获未知变体，但会产生极高的误报率，使其在现实环境中难以持续应用 - **机器学习模型**提高了适应性，但在实时检测速度方面存在困难，并且需要大量最新的标注数据集这就导致了一个持续存在的检测缺口——尤其是针对新型变体——这是现有的独立系统无法弥补的。 ## 2. 目标 - 对跨越基于签名、行为和 ML 方法的 20 篇勒索软件检测同行评审研究进行综述 - 通过比较分析，识别每种检测范式的结构性失败模式 - 提出一种结合这三种方法的混合检测模型，以解决单一方法无法覆盖的缺口 - 在准确率、误报率和实时能力方面，将拟议的模型与现有检测方法进行评估 - 探寻 AI 驱动的勒索软件防御的未来发展方向 ## 3. 数据集描述这是一项研究综述——检测性能数据取自 2018 年至 2024 年间发表的 20 篇同行评审论文，数据来源于 IEEE Xplore、ACM Digital Library 和 Springer。没有在所有研究中使用单一的数据集；所综述的论文共同分析了以下类型的数据： | 数据类型 | 捕获内容 | |---|---| | 文件系统活动日志 | 大规模重命名操作、扩展名更改、加密事件 | | API 调用序列 | 与文件加密和勒索软件执行相关的系统调用 | | 网络流量数据 | C2 通信模式、异常的出站连接 | | 静态文件特征 | PE 头结构、文件熵、导入表组成 | | 行为轨迹 | 运行时进程活动、注册表修改、卷影副本删除 | 所综述的论文涵盖了跨端点环境、云基础设施、IoT 和基于网络的监控上下文中的检测。 ## 4. 项目架构拟议的混合模型分三个连续阶段运行： ``` flowchart TD A([File / Process Input]) --> B B["Stage 1 — Signature-Based Scan Hash matching · Pattern DB · Known IOCs"] B -->|Match Found| C(["ALERT: Known Ransomware Quarantine Immediately"]) B -->|No Match| D D["Stage 2 — ML Behavioral Analysis Random Forest · Gradient Boosting File entropy · API calls · I/O patterns"] D -->|Malicious| E(["ALERT: Novel Variant Detected Quarantine + Flag for Review"]) D -->|Clean| F F["Stage 3 — Ensemble Decision Combined output from Stage 1 + Stage 2"] F -->|Either Stage Triggered| G(["RANSOMWARE Quarantine + Alert"]) F -->|Both Stages Clean| H(["CLEAN No Action Required"]) style C fill:#ffcccc,stroke:#cc0000 style E fill:#ffcccc,stroke:#cc0000 style G fill:#ffcccc,stroke:#cc0000 style H fill:#ccffcc,stroke:#007700 ``` | 阶段 | 方法 | 作用 | |---|---|---| | 阶段 1 | 基于签名的扫描 | 在 ML 推理运行之前快速消除已知威胁 | | 阶段 2 | ML 行为分类 | 通过模式分析检测新型和零日变体 | | 阶段 3 | 集成决策 | 如果任一阶段触发则发出警报——最大限度地减少漏检 | ## 5. 方法论 **综述方法：** 基于三项标准挑选了 20 篇同行评审论文——与勒索软件检测直接相关、针对检测数据集进行了实证评估，以及涵盖三种核心检测范式中的至少一种。 **分析框架：** 每篇论文都在以下几个方面进行了评估：该方法能可靠检测到什么，它在结构上的失败之处在哪里，以及作者注意到或省略了哪些操作约束。 **为什么采用混合方法？** 对所有 20 篇论文的分析揭示了一个一致的模式——每种独立方法都有一个无法突破的上限。签名方法在应对新型变体时触及了上限。行为方法在误报率上触及了上限。ML 方法则在实时延迟和数据集时效性上触及了上限。混合模型是唯一能够通过结合签名的快速预过滤、ML 的适应性以及降低漏检风险的集成决策层，同时解决这三个上限的设计。 ## 6. 模型训练本研究提出了一种检测模型架构；并未进行原始的 ML 训练实验。在 20 篇已评审的论文中对以下算法进行了分析，以确定最适合阶段 2 ML 分类器的算法： | 算法 | 典型检测率 | 误报率 | 适合实时检测 | 是否选用 | |---|---|---|---|---| | Random Forest | 95–99% | 低至中等 | 是 | 首选 | | Gradient Boosting | 96–99% | 低 | 是 | 备选 | | Support Vector Machine | 91–97% | 中等 | 规模化时性能下降 | 否 | | Decision Tree（单一） | 88–95% | 中等至高 | 是 | 否 | | Deep Neural Network | 93–99% | 低 | 有限 | 否 | **Random Forest** 被选为阶段 2 的主要分类器，这是基于其在所评审的研究中的一致表现、快速的推理速度以及特征重要性输出——这有助于解释各个单独的检测。当将最小化误报作为更高的操作优先级时，**Gradient Boosting** 是推荐的备选方案。 **在所评审的研究中用于分类的关键特征：** - 文件熵（高熵表明存在活跃的加密） - 文件重命名和扩展名更改率 - 与勒索软件行为相关的 API 调用序列 - 注册表修改模式 - 网络通信异常 ## 7. 结果 20 篇综述论文中报告的性能指标，以及拟议的混合模型的预计性能： | 检测方法 | 检测率 | 误报率 | 新型变体覆盖 | 支持实时检测 | |---|---|---|---|---| | 基于签名 | ~99%（仅限已知） | 极低 | 无 | 是 | | 行为 / 启发式 | 85–93% | 高 | 是 | 有限 | | ML — Random Forest | 95–99% | 低至中等 | 部分 | 是 | | ML — Gradient Boosting | 96–99% | 低 | 部分 | 是 | | ML — Deep Learning | 93–99% | 低 | 部分 | 否（资源消耗大） | | **混合（拟议）** | **97–99%+** | **低** | **完全** | **是** | **被认定为对勒索软件检测最重要的关键指标：** - **检测率**——正确识别出的勒索软件百分比 - **误报率**——合法活动被错误标记的频率；直接影响运营的可持续性 - **新型变体覆盖**——系统是否能检测到它从未见过的威胁 - **实时处理**——检测是否能跟上实际文件操作的速度 **核心发现：** 混合模型是唯一一种能够在已知和新型变体上同时实现高检测率，同时保持运营上可持续的低误报率和实时性能的方法。 ## 如何浏览此 Repo 从 README 开始阅读。如需深入了解每种检测方法的技术细节，请访问 `analysis/`。要详细了解拟议的模型架构，请访问 `model/`。完整的研究论文位于 `docs/` 中。 ## 我觉得有趣的地方大多数检测研究都针对单一指标进行优化——通常是准确率——而没有考虑系统实际运行的操作环境。一个准确率达到 98% 却引入延迟或让分析师淹没在误报中的模型，在实践中是无法被有效利用的。混合方法的脱颖而出不仅是因为它在技术上表现更好，更是因为当您考虑到它必须在真实环境中大规模运行时，它是唯一能够经受住考验的设计。 ## 8. 未来增强方向 - 整合 AI 驱动的自适应学习，以改善对不断演进的勒索软件家族的检测 - 将混合模型扩展到云原生环境，在这些环境中，文件操作发生在 API 级别而非 OS 级别 - 整合基于区块链的审计跟踪，以实现对检测事件的可取证追踪 - 使用活跃的勒索软件数据集对拟议的架构进行评估，以进行实证性能验证 - 降低 ML 推理的计算开销，以便在资源受限和 IoT 环境中部署 ## 9. 参考文献共评审了 20 篇同行评审论文——完整带注释列表可在 [`references/annotated_references.md`](references/annotated_references.md) 中找到主要来源包括： - Ferdous 等人 (2024) — AI 驱动的勒索软件检测：全面综述 — *IEEE Access* - Ispahany 等人 (2024) — 使用机器学习进行勒索软件检测：综述 — *IEEE Access* - Smith 等人 (2022) — 勒索软件检测中的机器学习算法与框架 — *IEEE Access* - Ahmad 等人 (2023) — 机器学习中勒索软件攻击检测的系统综述 — *AiDAS Conference* - Daku 等人 (2018) — 使用机器学习进行基于行为的勒索软件分类 — *IEEE TrustCom* ## 仓库内容 | 文件夹 | 内容 | |---|---| | `docs/` | 完整研究论文 | | `analysis/` | 检测方法分解与比较结果 | | `research/` | 综述方法论 | | `model/` | 混合架构、pipeline 图表和算法分析 | | `references/` | 所有 20 篇带注释的论文 |

标签：Apex, 勒索软件检测, 机器学习, 混合模型, 特征码检测