0ameyasr/DGvGAN
GitHub: 0ameyasr/DGvGAN
基于深度图卷积网络与生成对抗网络的动态恶意软件行为检测研究实现,通过 API 调用序列分析识别异常行为
Stars: 3 | Forks: 0
# DGvGAN - 用于动态恶意软件分析的深度图卷积神经网络与生成对抗网络
本仓库包含基于 **Oliveira & Sassi (2019)** 的[这篇](https://www.researchgate.net/publication/336989176_Behavioral_Malware_Detection_Using_Deep_Graph_Convolutional_Neural_Networks)论文的深度图卷积神经网络 (DGCNN) 模型的实现,用于基于行为的恶意软件检测。它还包括与**生成对抗网络 (GAN)** 的对比分析,该 GAN 被建模为良性正常软件样本中的异常检测器,旨在研究这两种在执行动态恶意软件分析和检测时的方法。该项目侧重于通过程序的 API 调用序列进行行为分析,而不是传统的图像转换或基于特征码的传统方法。通过仅在合法软件(正常软件)上训练 GAN,该系统旨在将恶意软件识别为偏离所学规范的异常行为。
## 概述
传统的恶意软件检测技术难以跟上日益复杂的威胁,特别是零日攻击和混淆恶意软件。此外,将恶意软件二进制文件转换为灰度图像的范式在实际部署中往往成本高昂,并且由于细粒度信息的丢失,存在将正常软件样本错误分类的风险。本项目通过首先实现 DGCNN 模型的标准基线,然后利用 GAN 架构进行异常检测来解决这一挑战,捕获良性程序的行为模式并标记表明恶意活动的偏差。我们希望研究这两种过程的对比情况。
## 主要功能
* 参考论文中 DGCNN 模型的实现
* 用于正常软件样本异常检测的 GAN 实现
* 所有已实现模型架构的对比分析
## 数据集
该项目使用了来自 **Kaggle** 的 **“Malware Analysis Datasets: API Call Sequences”** 数据集,包含:
* **42,797** 个_恶意软件_样本,以及 **1,079** 个_良性_样本
* 代表程序执行期间行为的 API 调用序列(每个样本最多 100 次调用,总共 306 次)
在[此处](https://www.kaggle.com/datasets/ang3loliveira/malware-analysis-datasets-api-call-sequences/data)查看数据集。
## 应用场景
该项目展示了与现代网络安全实践相关的方法:
* 下一代防病毒 (NGAV) 引擎
* 安全运营中心 (SOC) 中的自动化威胁分析
* 用于实时威胁检测的基于云端可执行文件扫描
## 仓库结构
仓库的结构如下:
* `data/` – 从数据集中获取的未处理和预处理数据
* `scripts/` – 与数据和模型交互的辅助脚本
* `models/` - 每个模型的实现
标签:DGCNN, GAN, pdftotext, Python, PyTorch, TensorFlow, Windows API调用序列, 二进制分析, 云安全运维, 凭据扫描, 图卷积神经网络, 安全人工智能, 异常检测, 恶意软件研究, 数据包嗅探, 无后门, 无线安全, 流量嗅探, 深度学习, 生成对抗网络, 网络安全, 网络安全审计, 良性软件建模, 逆向工具, 隐私保护, 零日攻击检测