adhyahebbar13/Federated-Learning-Enabled-Cloud-Intrusion-Detection-System-with-Hybrid-ML-Models

GitHub: adhyahebbar13/Federated-Learning-Enabled-Cloud-Intrusion-Detection-System-with-Hybrid-ML-Models

基于联邦学习的云入侵检测系统原型,融合规则引擎、监督学习、无监督异常检测和神经网络,实现隐私保护的分布式威胁检测。

Stars: 0 | Forks: 0

# 基于联邦学习的云入侵检测系统 ## 概述 本项目在合成生成的云日志基础上,采用混合机器学习方法实现了一套综合云入侵检测系统。它模拟了真实的云环境和多阶段攻击场景,能够强有力地检测异常和恶意活动。 该系统集成了基于规则的检测、无监督异常检测、监督学习模型和神经网络,并结合联邦学习,实现了跨分布式节点的去中心化和隐私保护模型训练。 ## 主要功能 * 使用 Faker 生成合成云日志,以模拟真实环境 * 多阶段攻击模拟(例如,异常 API 使用、可疑访问模式) * 基于云活动的特征工程: * API 调用 * 用户角色 * 地理区域 * 延迟和响应时间 * 数据传输模式 * 混合检测框架: * 基于规则的异常检测 * 无监督学习(Isolation Forest) * 监督模型(Random Forest, XGBoost) * 用于复杂模式识别的神经网络 * 联邦学习设置: * 跨多个节点的去中心化模型训练 * 无需共享原始数据的隐私保护学习 * 将局部模型聚合为全局模型 * 模块化且可扩展的 ML pipeline ## 技术栈 * **编程:** Python * **数据处理:** Pandas, NumPy * **合成数据生成:** Faker * **机器学习:** * Scikit-learn (Random Forest, Isolation Forest) * XGBoost * **深度学习:** TensorFlow / Keras * **学习范式:** 联邦学习 ## 工作流程 ### 1. 合成数据生成 * 使用 Faker 生成逼真的云日志 * 模拟用户、服务和云活动 * 注入攻击模式和异常 ### 2. 数据预处理 * 清洗和构建日志数据 * 编码分类特征 * 归一化数值特征 ### 3. 特征工程 * 提取行为模式,源于: * API 使用频率 * 访问位置 * 数据传输异常 * 延迟偏差 ### 4. 检测模型 #### 基于规则的系统 * 检测预定义的可疑行为 * 作为基线检测 #### 无监督学习 * 使用 Isolation Forest 进行异常检测 * 识别未知或零日 (zero-day) 模式 #### 监督学习 * Random Forest 和 XGBoost 分类器 * 区分正常与恶意活动 #### 神经网络 * 捕捉复杂的非线性关系 * 提高对隐蔽攻击模式的检测能力 ### 5. 联邦学习 * 模拟多个分布式客户端 * 在分离的数据集上训练局部模型 * 将权重聚合到全局模型中 * 通过避免共享原始数据来确保隐私 ## 结果 * 有效检测异常云活动 * 通过混合 ML 方法提高鲁棒性 * 通过联邦学习增强可扩展性和隐私性 *(在此处添加准确率、F1-score 等指标以增强影响力)* ## 未来改进 * 实时流数据集成 * 在云平台 (AWS/GCP/Azure) 上部署 * 先进的联邦优化技术 * 与 SIEM/安全监控工具集成 ## 作者 Adhya Hebbar ## 许可证 MIT License
标签:AMSI绕过, API安全, CISA项目, JSON输出, Python, Scikit-learn, TensorFlow, XGBoost, 入侵检测系统, 分布式训练, 合成日志, 威胁检测, 孤立森林, 安全数据湖, 异常检测, 数据增强, 无后门, 深度学习, 混合机器学习, 特征工程, 网络安全, 联邦学习, 逆向工具, 随机森林, 隐私保护, 隐私计算