Malu01/AI_Driven_Cybersecurity

GitHub: Malu01/AI_Driven_Cybersecurity

这是一个基于机器学习的实时威胁情报系统,专注于通过分析网络流量特征来高效检测和预防僵尸网络攻击。

Stars: 0 | Forks: 0

## 📊 数据集描述 我们使用了 **[CSE-CIC-IDS2018 Dataset (Kaggle)](https://www.kaggle.com/datasets/dhoogla/csecicids2018?utm_source=chatgpt.com)**,这是一个广泛认可的 **网络入侵检测和网络安全研究** 基准数据集。 该数据集由 **加拿大网络安全研究所 (CIC)** 开发,是早期 CIC-IDS2017 数据集的进阶版本。它包含在基于云的环境 (AWS) 中生成的真实网络流量,使其适用于现代网络安全应用。([Kaggle][1]) ### 🔍 数据集主要特点 * 📡 包含 **良性活动和恶意活动的真实网络流量模拟** * 🧠 专为 **基于机器学习与深度学习的入侵检测系统 (IDS)** 设计 * ⚡ 涵盖多种攻击类别,例如: * Botnet (僵尸网络) * DoS/DDoS (拒绝服务/分布式拒绝服务) * Brute Force (暴力破解) * Web Attacks (Web 攻击) * Infiltration (渗透) * 📁 包含 **80 多个网络流特征**,例如: * Flow Duration (流持续时间) * Packet Count (Forward/Backward) (数据包计数 (前向/后向)) * Protocol (协议) * Destination Port (目标端口) * Label (Benign / Attack) (标签 (良性 / 攻击)) ([Kaggle][2]) * ☁️ 使用 **大规模基础设施(约 450 台机器)** 生成,以模拟企业环境 ([FKIE Cyber Analysis & Defense (CA&D)][3]) ## 📂 使用的数据集版本 在本项目中,我们使用了以下文件: 📌 **`Botnet-Friday-02-03-2018_TrafficForML_CRC32_Injected.parquet`** ### ✅ 为什么选择这个文件? * 专门聚焦于 **Botnet (僵尸网络) 攻击流量** * 以 **Apache Parquet 格式** 进行了预处理: * 更快的数据加载速度 * 优化的存储方式 * 清理后的版本中没有缺失或重复的记录 ([Kaggle][1]) * 非常适合 **高性能 ML 训练和实时检测系统** ## ⚙️ 为什么选择 Parquet 格式? * 🚀 与 CSV 相比,处理速度最高可提升 **10 倍** * 📉 减小文件体积 * 🔄 对大数据框架 (Pandas, Spark) 高效友好 ## 🧠 本项目中的用例 该数据集用于: * 训练用于 **Botnet (僵尸网络) 攻击检测** 的 ML 模型 * 执行 **特征工程和预处理** * 构建 **实时威胁检测系统** * 在 **真实的网络攻击场景** 中评估模型性能
标签:AI安全, Apache Parquet, Apex, AWS云安全, BSD, Chat Copilot, CSE-CIC-IDS2018, DoS/DDoS攻击, PoC, Web攻击, 僵尸网络检测, 入侵检测系统, 大数据, 威胁情报, 安全数据湖, 实时威胁检测, 实时流量分析, 开发者工具, 数据挖掘, 数据科学, 数据预处理, 暴力破解, 机器学习, 深度学习, 渗透攻击, 特征工程, 目录扫描, 网络安全, 网络流量分析, 资源验证, 逆向工具, 隐私保护