adhyahebbar13/Federated-Learning-Enabled-Cloud-Intrusion-Detection-System-with-Hybrid-ML-Models
GitHub: adhyahebbar13/Federated-Learning-Enabled-Cloud-Intrusion-Detection-System-with-Hybrid-ML-Models
基于联邦学习的云入侵检测系统原型,融合规则引擎、监督学习、无监督异常检测和神经网络,实现隐私保护的分布式威胁检测。
Stars: 0 | Forks: 0
# 基于联邦学习的云入侵检测系统
## 概述
本项目在合成生成的云日志基础上,采用混合机器学习方法实现了一套综合云入侵检测系统。它模拟了真实的云环境和多阶段攻击场景,能够强有力地检测异常和恶意活动。
该系统集成了基于规则的检测、无监督异常检测、监督学习模型和神经网络,并结合联邦学习,实现了跨分布式节点的去中心化和隐私保护模型训练。
## 主要功能
* 使用 Faker 生成合成云日志,以模拟真实环境
* 多阶段攻击模拟(例如,异常 API 使用、可疑访问模式)
* 基于云活动的特征工程:
* API 调用
* 用户角色
* 地理区域
* 延迟和响应时间
* 数据传输模式
* 混合检测框架:
* 基于规则的异常检测
* 无监督学习(Isolation Forest)
* 监督模型(Random Forest, XGBoost)
* 用于复杂模式识别的神经网络
* 联邦学习设置:
* 跨多个节点的去中心化模型训练
* 无需共享原始数据的隐私保护学习
* 将局部模型聚合为全局模型
* 模块化且可扩展的 ML pipeline
## 技术栈
* **编程:** Python
* **数据处理:** Pandas, NumPy
* **合成数据生成:** Faker
* **机器学习:**
* Scikit-learn (Random Forest, Isolation Forest)
* XGBoost
* **深度学习:** TensorFlow / Keras
* **学习范式:** 联邦学习
## 工作流程
### 1. 合成数据生成
* 使用 Faker 生成逼真的云日志
* 模拟用户、服务和云活动
* 注入攻击模式和异常
### 2. 数据预处理
* 清洗和构建日志数据
* 编码分类特征
* 归一化数值特征
### 3. 特征工程
* 提取行为模式,源于:
* API 使用频率
* 访问位置
* 数据传输异常
* 延迟偏差
### 4. 检测模型
#### 基于规则的系统
* 检测预定义的可疑行为
* 作为基线检测
#### 无监督学习
* 使用 Isolation Forest 进行异常检测
* 识别未知或零日 (zero-day) 模式
#### 监督学习
* Random Forest 和 XGBoost 分类器
* 区分正常与恶意活动
#### 神经网络
* 捕捉复杂的非线性关系
* 提高对隐蔽攻击模式的检测能力
### 5. 联邦学习
* 模拟多个分布式客户端
* 在分离的数据集上训练局部模型
* 将权重聚合到全局模型中
* 通过避免共享原始数据来确保隐私
## 结果
* 有效检测异常云活动
* 通过混合 ML 方法提高鲁棒性
* 通过联邦学习增强可扩展性和隐私性
*(在此处添加准确率、F1-score 等指标以增强影响力)*
## 未来改进
* 实时流数据集成
* 在云平台 (AWS/GCP/Azure) 上部署
* 先进的联邦优化技术
* 与 SIEM/安全监控工具集成
## 作者
Adhya Hebbar
## 许可证
MIT License
标签:AMSI绕过, API安全, CISA项目, JSON输出, Python, Scikit-learn, TensorFlow, XGBoost, 入侵检测系统, 分布式训练, 合成日志, 威胁检测, 孤立森林, 安全数据湖, 异常检测, 数据增强, 无后门, 深度学习, 混合机器学习, 特征工程, 网络安全, 联邦学习, 逆向工具, 随机森林, 隐私保护, 隐私计算