Malu01/AI_Driven_Cybersecurity
GitHub: Malu01/AI_Driven_Cybersecurity
这是一个基于机器学习的实时威胁情报系统,专注于通过分析网络流量特征来高效检测和预防僵尸网络攻击。
Stars: 0 | Forks: 0
## 📊 数据集描述
我们使用了 **[CSE-CIC-IDS2018 Dataset (Kaggle)](https://www.kaggle.com/datasets/dhoogla/csecicids2018?utm_source=chatgpt.com)**,这是一个广泛认可的 **网络入侵检测和网络安全研究** 基准数据集。
该数据集由 **加拿大网络安全研究所 (CIC)** 开发,是早期 CIC-IDS2017 数据集的进阶版本。它包含在基于云的环境 (AWS) 中生成的真实网络流量,使其适用于现代网络安全应用。([Kaggle][1])
### 🔍 数据集主要特点
* 📡 包含 **良性活动和恶意活动的真实网络流量模拟**
* 🧠 专为 **基于机器学习与深度学习的入侵检测系统 (IDS)** 设计
* ⚡ 涵盖多种攻击类别,例如:
* Botnet (僵尸网络)
* DoS/DDoS (拒绝服务/分布式拒绝服务)
* Brute Force (暴力破解)
* Web Attacks (Web 攻击)
* Infiltration (渗透)
* 📁 包含 **80 多个网络流特征**,例如:
* Flow Duration (流持续时间)
* Packet Count (Forward/Backward) (数据包计数 (前向/后向))
* Protocol (协议)
* Destination Port (目标端口)
* Label (Benign / Attack) (标签 (良性 / 攻击)) ([Kaggle][2])
* ☁️ 使用 **大规模基础设施(约 450 台机器)** 生成,以模拟企业环境 ([FKIE Cyber Analysis & Defense (CA&D)][3])
## 📂 使用的数据集版本
在本项目中,我们使用了以下文件:
📌 **`Botnet-Friday-02-03-2018_TrafficForML_CRC32_Injected.parquet`**
### ✅ 为什么选择这个文件?
* 专门聚焦于 **Botnet (僵尸网络) 攻击流量**
* 以 **Apache Parquet 格式** 进行了预处理:
* 更快的数据加载速度
* 优化的存储方式
* 清理后的版本中没有缺失或重复的记录 ([Kaggle][1])
* 非常适合 **高性能 ML 训练和实时检测系统**
## ⚙️ 为什么选择 Parquet 格式?
* 🚀 与 CSV 相比,处理速度最高可提升 **10 倍**
* 📉 减小文件体积
* 🔄 对大数据框架 (Pandas, Spark) 高效友好
## 🧠 本项目中的用例
该数据集用于:
* 训练用于 **Botnet (僵尸网络) 攻击检测** 的 ML 模型
* 执行 **特征工程和预处理**
* 构建 **实时威胁检测系统**
* 在 **真实的网络攻击场景** 中评估模型性能
标签:AI安全, Apache Parquet, Apex, AWS云安全, BSD, Chat Copilot, CSE-CIC-IDS2018, DoS/DDoS攻击, PoC, Web攻击, 僵尸网络检测, 入侵检测系统, 大数据, 威胁情报, 安全数据湖, 实时威胁检测, 实时流量分析, 开发者工具, 数据挖掘, 数据科学, 数据预处理, 暴力破解, 机器学习, 深度学习, 渗透攻击, 特征工程, 目录扫描, 网络安全, 网络流量分析, 资源验证, 逆向工具, 隐私保护