emanuelepiodebernardis/iot-audit

GitHub: emanuelepiodebernardis/iot-audit

基于机器学习的IoT/IIoT入侵检测系统，提供端到端的检测pipeline，支持多种攻击类型的二元和多类分类，并兼顾模型可解释性与部署效率。

Stars: 0 | Forks: 0

# 基于机器学习的 IoT/IIoT 入侵检测系统作者：Emanuele Pio De Bernardis 所属机构：Università eCampus 许可证：MIT ## 概述本仓库实现了一个基于机器学习的入侵检测系统 (IDS)，专为 IoT 和 IIoT 网络环境设计，重点关注可扩展部署、对抗鲁棒性和计算效率。该系统分析源自 TON_IoT 数据集的网络流遥测数据，模拟正常和对抗条件下的真实 IoT/IIoT 智能基础设施流量。该 IDS 支持两种互补的检测范式：二元分类：区分正常流量与恶意流量多类分类：识别特定的攻击家族（例如，DoS、DDoS、MITM、勒索软件、扫描、注入攻击）其目标是构建一个可复现的、由基准驱动的入侵检测 pipeline，并联合优化以下方面： ## 预测性能推理延迟模型内存占用跨域泛化能力 ## 研究背景现代 IoT/IIoT 生态系统引入了重大的网络安全挑战，原因在于：异构且资源受限的设备大规模分布式攻击面网络流量分布的高度多变性检测模型难以在不同环境间泛化本项目通过关注以下方面来解决这些挑战： ## 检测基于网络的网络攻击，包括： DoS / DDoS 攻击中间人 (MITM) 攻击僵尸网络活动注入和基于侦察的攻击与勒索软件相关的流量模式在真实安全数据集典型的类别不平衡条件下进行评估跨域偏移 (TON → CIC IoT 2023) 下的鲁棒性评估针对可部署 IDS 场景的计算效率基准测试（延迟 + 模型大小）通过基于 SHAP 的解释集成模型可解释性 ## Pipeline 概述该系统遵循结构化的 pipeline：提出的 IDS 遵循模块化且可复现的 pipeline：数据预处理与清洗处理缺失值和无效流数值特征的归一化类别变量的编码特征工程网络流特征的统一表示跨异构数据集的对齐（TON 和 CIC IoT 2023）监督模型训练在相同预处理条件下训练多种 ML 分类器评估框架分类指标（准确率、精确率、召回率、F1分数）阈值无关指标（ROC-AUC、PR-AUC）交叉验证（分层 K 折）效率分析推理延迟（每 1000 个样本的毫秒数）磁盘上的模型大小（MB）准确率与计算成本之间的权衡分析可解释性层基于 SHAP 的全局和局部特征归因针对攻击类别的特定类别可解释性（例如，MITM 检测分析） ## 使用的模型在相同的实验条件下评估了以下监督学习模型： Logistic Regression（基线线性分类器） Random Forest（基于树的集成模型） XGBoost（梯度提升框架） LightGBM（优化的梯度提升） MLP 神经网络（深度学习基线）每个模型都在以下方面进行评估：检测性能域偏移下的鲁棒性计算效率 ## 数据集：TON_IoT 网络数据集名称：TON_IoT 网络数据集 — 用于入侵检测的 IoT/IIoT 网络流量提供者：Cyber Range & IoT Labs, UNSW Canberra (SEIT) — TON_IoT 数据集集合官方页面：许可证：Creative Commons Attribution 4.0 International (CC BY 4.0)（详情请参阅 TON_IoT 网站）本仓库使用通常作为 `train_test_network.csv` 分发的训练/测试网络流子集（约 29.9 MB；44 列）。这些流量是使用 Argus 和 Bro (Zeek) 等工具在真实的 IoT/IIoT 智能环境场景中捕获的。该数据集包含正常和恶意流量，适用于入侵检测、异常检测和 ML 基准测试。从此处下载： ## 数据集：CIC-IoT 数据集 2023 名称：CIC IoT 数据集 2023 提供者：加拿大网络安全研究所 (CIC)，新不伦瑞克大学官方页面：许可证：研究/学术用途（由 CIC 数据集政策定义）该数据集包含捕获的现代 IoT 网络流量：真实的 IoT 通信多样化的攻击场景与旧版 CIC 数据集相比更新的攻击模式在本项目中，它用于：外部验证（跨域测试）已训练模型的鲁棒性评估 TON_IoT 和 CIC-IoT 环境之间的域偏移分析主要目的：评估模型在训练分布之外的泛化能力

标签：Apex, DDoS攻击, DoS攻击, SHAP, TON_IoT数据集, 中间人攻击, 二分类, 人工智能安全, 僵尸网络, 入侵检测管道, 入侵检测系统, 勒索软件, 合规性, 多分类, 安全数据湖, 对抗性鲁棒性, 工业物联网, 工业网络安全, 异常检测, 智能基础设施, 机器学习, 模型可解释性, 物联网, 特征工程, 监督学习, 网络安全, 网络流量分析, 资源效率评估, 跨域泛化, 逆向工具, 配置错误, 隐私保护, 预测模型