BPhuc246/IE105_MalwareDectionAndPrevention

GitHub: BPhuc246/IE105_MalwareDectionAndPrevention

IE105_MalwareDectionAndPrevention是一个基于深度学习的恶意软件检测与预防系统。

Stars: 0 | Forks: 0

# IE105 - 勒索软件恶意软件检测与预防 ## RansoGuard：一种基于RNN的框架，利用攻击前敏感API进行早期勒索软件检测原始论文：https://www.sciencedirect.com/science/article/pii/S0167404824005996#d1e1458 ## 概述本项目提出了一种基于深度学习和动态API调用分析的主动勒索软件和恶意软件检测系统。与传统的基于签名的传统方法不同，这些方法在对抗新出现的和不断发展的恶意软件变体时遇到困难，所提出的解决方案通过API执行的顺序模式识别恶意行为。在RansoGuard等先前研究的基础上，本项目引入了几个重要的改进： * **多类恶意软件分类**，能够识别**8种不同的恶意软件家族**，而不仅仅是进行二元的恶意软件/良性检测。 * **多个神经网络架构的比较评估**，以证明在API调用序列中顺序行为信息的重要性。 * **优化的数据预处理管道**，使推理更快，使系统适用于实时监控环境。该系统可以集成到**沙箱环境**、**端点检测和响应（EDR）解决方案**和其他网络安全监控平台，以提供可疑活动的早期预警。 ## 数据集数据集来源：https://github.com/ocatak/malware_api_class 该数据集由从多个恶意软件家族和良性软件样本收集的动态API调用跟踪组成，通过序列学习方法实现行为恶意软件分类。 ## 关键成就 ### 研究贡献 * 成功重现了原始研究中的基线方法，包括： * 词集（SoW） * 词袋（BoW） * 词序（OoW） * 开发了一个**8类恶意软件家族分类系统**，超越了传统的二元检测。 * 通过以下方式改进了模型性能： * **双向LSTM（Bi-LSTM**） * 增加序列填充长度至**300个API调用** * **L2正则化** * **Dropout（0.5**）这些改进降低了过拟合，与原始方法相比提高了模型稳定性。 ### 实验评估模型使用以下方法进行评估： * 分层K折交叉验证 * 准确率 * 精确率 * 召回率 * F1分数 * ROC-AUC 实验结果表明，模型具有强大的分类性能，并且能够有效区分具有相似行为特征的恶意软件家族。 ## 使用的技术 * Python * TensorFlow / Keras * Google Colab * Scikit-learn * NumPy * Pandas * Matplotlib * VirtualBox沙箱环境 ## 局限性尽管取得了有希望的结果，但仍然存在一些挑战： * 某些恶意软件家族（例如，特洛伊木马和后门）之间的**行为重叠**可能导致分类错误。 * **行为混淆技术**，如插入垃圾API调用，可能会通过破坏学习到的顺序模式来降低模型的有效性。 * 由于使用了Bi-LSTM和长的API调用序列，**计算成本**高于传统的统计方法。 ## 未来工作未来发展的潜在方向包括： * 集成**注意力机制**和基于Transformer的架构，以更好地捕获重要的API调用关系。 * 通过混合特征（如API序列、操作码和PE头部信息）结合**静态和动态分析**。 * 将模型部署为**实时监控服务**，能够分析文件并生成即时警报。 * 研究**对抗性恶意软件攻击**，并开发针对专门设计以规避深度学习模型的样本的防御机制。 ## 教育价值本项目提供了以下方面的实践经验： * 恶意软件行为分析 * 深度学习模型开发 * 实验研究方法 * 数据预处理和特征工程 * 网络安全系统设计 * 科学报告和数据可视化该项目展示了机器学习如何应用于现代网络安全挑战，提供了一种更适应性和智能的防御机制，以对抗不断发展的勒索软件和恶意软件威胁。

标签：Apex, API调用模式, Bi-LSTM, EDR解决方案, Ransomware, RNN, 动态API分析, 多分类, 序列学习, 数据预处理, 机器学习, 机器学习模型, 沙箱环境, 深度学习, 端点检测与响应, 网络安全, 脱壳工具, 行为模式识别, 逆向工具, 隐私保护