CHAITHANYAHEGDE/IDS-and-Malware-Research

GitHub: CHAITHANYAHEGDE/IDS-and-Malware-Research

该项目是一个结合机器学习与可解释 AI 的网络安全研究仓库，解决二元恶意软件检测和入侵检测系统中的模型构建与可解释性问题。

Stars: 1 | Forks: 0

# IDS 与恶意软件研究 ### 面向网络安全的高级机器学习内存恶意软件检测 • 入侵检测系统 • 可解释 AI • 统计验证

机器学习 • 恶意软件分析 • 可解释 AI • 特征工程 • 超参数优化

# 概述本仓库包含我在网络安全和机器学习方面的研究贡献，重点关注： - 二元恶意软件检测 - 入侵检测系统 - 可解释人工智能 - 特征工程 - 统计验证 - 超参数优化 - 模型可解释性 # 仓库结构 ``` IDS-and-Malware-Research │ ├── Chaithanya_CIC_MalMem_2022 │ │ Binary Malware Detection │ CIC-MalMem2022 Dataset │ LightGBM + SHAP + LIME │ ├── Chaithanya_CIC_UNSW_NB15 │ │ Intrusion Detection System │ UNSW-NB15 Dataset │ Multi-model Comparison │ ├── assets │ ├── models │ ├── docs │ └── README.md ``` # 研究流程 ``` flowchart LR A[Raw Dataset] -->B[Data Preprocessing] B-->C[Correlation Reduction] C-->D[SMOTETomek] D-->E[Hybrid Feature Selection] E-->F[Optuna Hyperparameter Optimization] F-->G[LightGBM Model] G-->H[Threshold Optimization] H-->I[SHAP + LIME Explainability] I-->J[McNemar Statistical Validation] J-->K[Final Model] ``` # 研究领域 ``` mindmap root((Cyber Security)) Malware Detection Intrusion Detection Systems Explainable AI Feature Engineering Ensemble Learning Hyperparameter Optimization Statistical Validation Machine Learning ``` # 项目 ## 使用 CIC-MalMem2022 进行二元恶意软件检测 ### 目标开发一个可解释的框架，利用基于内存的行为特征来检测恶意进程。 ### 方法论 - 缺失值处理 - 相关性降低 - 特征缩放 - SMOTETomek - 混合特征选择 - LightGBM - Optuna 超参数优化 - 阈值优化 - SHAP 可解释性 - LIME 可解释性 - McNemar 统计检验 ## 使用 UNSW-NB15 的入侵检测系统 ### 目标利用机器学习和特征工程检测恶意网络流量。 ### 技术 - PCA - 特征工程 - SMOTE - 逻辑回归 - SVM - 随机森林 - XGBoost - 交叉验证 # 二元恶意软件检测结果 | 指标 | 分数 | |----------|-------| | 准确率 (Accuracy) | 98.95% | | 精确率 (Precision) | 60.18% | | 召回率 (Recall) | 78.24% | | F1 分数 (F1 Score) | 68.03% | | ROC-AUC | 98.80% | | 平衡准确率 (Balanced Accuracy) | 88.74% | | MCC | 68.11% | # 数据集 ## CIC-MalMem2022 - 基于内存的行为恶意软件数据集 - 二元分类 - 严重的类别不平衡 - 内存进程特征 - 可解释 AI 分析 ## UNSW-NB15 - 网络入侵数据集 - 攻击流量分类 - 多分类 IDS 框架 - 特征工程与 PCA # 技术栈 | 类别 | 工具 | |------------|------| | 语言 | Python | | 数据科学 | Pandas, NumPy | | 可视化 | Matplotlib, Seaborn | | 机器学习 | Scikit-Learn | | 梯度提升 | LightGBM, XGBoost, CatBoost | | 优化 | Optuna | | 可解释性 | SHAP, LIME | | 验证 | McNemar 检验 | | 环境 | Jupyter Notebook | # 架构 ``` Dataset ↓ Preprocessing ↓ Feature Engineering ↓ SMOTETomek ↓ Feature Selection ↓ Optuna Optimization ↓ LightGBM ↓ Threshold Optimization ↓ SHAP + LIME ↓ Final Model ``` # 结果可视化将生成的图表放入以下路径： ``` assets/ │ ├── roc_curve.png ├── confusion_matrix.png ├── shap_summary.png ├── feature_importance.png └── threshold_optimization.png ``` # 发表论文目前正在准备中。 - 基于内存行为特征与可解释 AI 的二元恶意软件检测。 - 使用 UNSW-NB15 的基于机器学习的入侵检测系统。 # 路线图 - [x] 特征工程 - [x] 混合特征选择 - [x] 超参数优化 - [x] 可解释 AI - [x] 统计验证 - [ ] Bootstrap 置信区间 - [ ] 假阴性分析 - [ ] 代价敏感学习 - [ ] 期刊发表 # 可复现性 ``` import joblib model = joblib.load("models/lightgbm_model.pkl") ``` # 引用 ``` @misc{hegde2026malware, author = {Chaithanya Hegde}, title = {IDS and Malware Research}, year = {2026}, url = {https://github.com/CHAITHANYAHEGDE/IDS-and-Malware-Research} } ``` # 作者 ## Chaithanya Hegde 计算机科学工程（网络安全） Manipal Institute of Technology 研究兴趣： - 网络安全 - 恶意软件分析 - 入侵检测系统 - 可解释 AI - 机器学习 - 特征工程 # 指导教师 Dr. Sanket Mishra Manipal Institute of Technology # 许可证本仓库旨在用于学术研究和教育目的。

标签：Apex, NoSQL, 入侵检测系统, 可解释AI, 安全数据湖, 机器学习, 特征工程, 超参数优化, 逆向工具