emanuelepiodebernardis/iot-audit

GitHub: emanuelepiodebernardis/iot-audit

基于机器学习的IoT/IIoT入侵检测系统,提供端到端的检测pipeline,支持多种攻击类型的二元和多类分类,并兼顾模型可解释性与部署效率。

Stars: 0 | Forks: 0

# 基于机器学习的 IoT/IIoT 入侵检测系统 作者:Emanuele Pio De Bernardis 所属机构:Università eCampus 许可证:MIT ## 概述 本仓库实现了一个基于机器学习的入侵检测系统 (IDS),专为 IoT 和 IIoT 网络环境设计,重点关注可扩展部署、对抗鲁棒性和计算效率。 该系统分析源自 TON_IoT 数据集的网络流遥测数据,模拟正常和对抗条件下的真实 IoT/IIoT 智能基础设施流量。 该 IDS 支持两种互补的检测范式: 二元分类:区分正常流量与恶意流量 多类分类:识别特定的攻击家族(例如,DoS、DDoS、MITM、勒索软件、扫描、注入攻击) 其目标是构建一个可复现的、由基准驱动的入侵检测 pipeline,并联合优化以下方面: ## 预测性能 推理延迟 模型内存占用 跨域泛化能力 ## 研究背景 现代 IoT/IIoT 生态系统引入了重大的网络安全挑战,原因在于: 异构且资源受限的设备 大规模分布式攻击面 网络流量分布的高度多变性 检测模型难以在不同环境间泛化 本项目通过关注以下方面来解决这些挑战: ## 检测基于网络的网络攻击,包括: DoS / DDoS 攻击 中间人 (MITM) 攻击 僵尸网络活动 注入和基于侦察的攻击 与勒索软件相关的流量模式 在真实安全数据集典型的类别不平衡条件下进行评估 跨域偏移 (TON → CIC IoT 2023) 下的鲁棒性评估 针对可部署 IDS 场景的计算效率基准测试(延迟 + 模型大小) 通过基于 SHAP 的解释集成模型可解释性 ## Pipeline 概述 该系统遵循结构化的 pipeline: 提出的 IDS 遵循模块化且可复现的 pipeline: 数据预处理与清洗 处理缺失值和无效流 数值特征的归一化 类别变量的编码 特征工程 网络流特征的统一表示 跨异构数据集的对齐(TON 和 CIC IoT 2023) 监督模型训练 在相同预处理条件下训练多种 ML 分类器 评估框架 分类指标(准确率、精确率、召回率、F1分数) 阈值无关指标(ROC-AUC、PR-AUC) 交叉验证(分层 K 折) 效率分析 推理延迟(每 1000 个样本的毫秒数) 磁盘上的模型大小(MB) 准确率与计算成本之间的权衡分析 可解释性层 基于 SHAP 的全局和局部特征归因 针对攻击类别的特定类别可解释性(例如,MITM 检测分析) ## 使用的模型 在相同的实验条件下评估了以下监督学习模型: Logistic Regression(基线线性分类器) Random Forest(基于树的集成模型) XGBoost(梯度提升框架) LightGBM(优化的梯度提升) MLP 神经网络(深度学习基线) 每个模型都在以下方面进行评估: 检测性能 域偏移下的鲁棒性 计算效率 ## 数据集:TON_IoT 网络数据集 名称:TON_IoT 网络数据集 — 用于入侵检测的 IoT/IIoT 网络流量 提供者:Cyber Range & IoT Labs, UNSW Canberra (SEIT) — TON_IoT 数据集集合 官方页面: 许可证:Creative Commons Attribution 4.0 International (CC BY 4.0)(详情请参阅 TON_IoT 网站) 本仓库使用通常作为 `train_test_network.csv` 分发的训练/测试网络流子集(约 29.9 MB;44 列)。这些流量是使用 Argus 和 Bro (Zeek) 等工具在真实的 IoT/IIoT 智能环境场景中捕获的。该数据集包含正常和恶意流量,适用于入侵检测、异常检测和 ML 基准测试。 从此处下载: ## 数据集:CIC-IoT 数据集 2023 名称:CIC IoT 数据集 2023 提供者:加拿大网络安全研究所 (CIC),新不伦瑞克大学 官方页面: 许可证:研究/学术用途(由 CIC 数据集政策定义) 该数据集包含捕获的现代 IoT 网络流量: 真实的 IoT 通信 多样化的攻击场景 与旧版 CIC 数据集相比更新的攻击模式 在本项目中,它用于: 外部验证(跨域测试) 已训练模型的鲁棒性评估 TON_IoT 和 CIC-IoT 环境之间的域偏移分析 主要目的: 评估模型在训练分布之外的泛化能力
标签:Apex, DDoS攻击, DoS攻击, SHAP, TON_IoT数据集, 中间人攻击, 二分类, 人工智能安全, 僵尸网络, 入侵检测管道, 入侵检测系统, 勒索软件, 合规性, 多分类, 安全数据湖, 对抗性鲁棒性, 工业物联网, 工业网络安全, 异常检测, 智能基础设施, 机器学习, 模型可解释性, 物联网, 特征工程, 监督学习, 网络安全, 网络流量分析, 资源效率评估, 跨域泛化, 逆向工具, 配置错误, 隐私保护, 预测模型