emanuelepiodebernardis/iot-audit
GitHub: emanuelepiodebernardis/iot-audit
基于机器学习的IoT/IIoT入侵检测系统,提供端到端的检测pipeline,支持多种攻击类型的二元和多类分类,并兼顾模型可解释性与部署效率。
Stars: 0 | Forks: 0
# 基于机器学习的 IoT/IIoT 入侵检测系统
作者:Emanuele Pio De Bernardis
所属机构:Università eCampus
许可证:MIT
## 概述
本仓库实现了一个基于机器学习的入侵检测系统 (IDS),专为 IoT 和 IIoT 网络环境设计,重点关注可扩展部署、对抗鲁棒性和计算效率。
该系统分析源自 TON_IoT 数据集的网络流遥测数据,模拟正常和对抗条件下的真实 IoT/IIoT 智能基础设施流量。
该 IDS 支持两种互补的检测范式:
二元分类:区分正常流量与恶意流量
多类分类:识别特定的攻击家族(例如,DoS、DDoS、MITM、勒索软件、扫描、注入攻击)
其目标是构建一个可复现的、由基准驱动的入侵检测 pipeline,并联合优化以下方面:
## 预测性能
推理延迟
模型内存占用
跨域泛化能力
## 研究背景
现代 IoT/IIoT 生态系统引入了重大的网络安全挑战,原因在于:
异构且资源受限的设备
大规模分布式攻击面
网络流量分布的高度多变性
检测模型难以在不同环境间泛化
本项目通过关注以下方面来解决这些挑战:
## 检测基于网络的网络攻击,包括:
DoS / DDoS 攻击
中间人 (MITM) 攻击
僵尸网络活动
注入和基于侦察的攻击
与勒索软件相关的流量模式
在真实安全数据集典型的类别不平衡条件下进行评估
跨域偏移 (TON → CIC IoT 2023) 下的鲁棒性评估
针对可部署 IDS 场景的计算效率基准测试(延迟 + 模型大小)
通过基于 SHAP 的解释集成模型可解释性
## Pipeline 概述
该系统遵循结构化的 pipeline:
提出的 IDS 遵循模块化且可复现的 pipeline:
数据预处理与清洗
处理缺失值和无效流
数值特征的归一化
类别变量的编码
特征工程
网络流特征的统一表示
跨异构数据集的对齐(TON 和 CIC IoT 2023)
监督模型训练
在相同预处理条件下训练多种 ML 分类器
评估框架
分类指标(准确率、精确率、召回率、F1分数)
阈值无关指标(ROC-AUC、PR-AUC)
交叉验证(分层 K 折)
效率分析
推理延迟(每 1000 个样本的毫秒数)
磁盘上的模型大小(MB)
准确率与计算成本之间的权衡分析
可解释性层
基于 SHAP 的全局和局部特征归因
针对攻击类别的特定类别可解释性(例如,MITM 检测分析)
## 使用的模型
在相同的实验条件下评估了以下监督学习模型:
Logistic Regression(基线线性分类器)
Random Forest(基于树的集成模型)
XGBoost(梯度提升框架)
LightGBM(优化的梯度提升)
MLP 神经网络(深度学习基线)
每个模型都在以下方面进行评估:
检测性能
域偏移下的鲁棒性
计算效率
## 数据集:TON_IoT 网络数据集
名称:TON_IoT 网络数据集 — 用于入侵检测的 IoT/IIoT 网络流量
提供者:Cyber Range & IoT Labs, UNSW Canberra (SEIT) — TON_IoT 数据集集合
官方页面:
许可证:Creative Commons Attribution 4.0 International (CC BY 4.0)(详情请参阅 TON_IoT 网站)
本仓库使用通常作为 `train_test_network.csv` 分发的训练/测试网络流子集(约 29.9 MB;44 列)。这些流量是使用 Argus 和 Bro (Zeek) 等工具在真实的 IoT/IIoT 智能环境场景中捕获的。该数据集包含正常和恶意流量,适用于入侵检测、异常检测和 ML 基准测试。
从此处下载:
## 数据集:CIC-IoT 数据集 2023
名称:CIC IoT 数据集 2023
提供者:加拿大网络安全研究所 (CIC),新不伦瑞克大学
官方页面:
许可证:研究/学术用途(由 CIC 数据集政策定义)
该数据集包含捕获的现代 IoT 网络流量:
真实的 IoT 通信
多样化的攻击场景
与旧版 CIC 数据集相比更新的攻击模式
在本项目中,它用于:
外部验证(跨域测试)
已训练模型的鲁棒性评估
TON_IoT 和 CIC-IoT 环境之间的域偏移分析
主要目的:
评估模型在训练分布之外的泛化能力
标签:Apex, DDoS攻击, DoS攻击, SHAP, TON_IoT数据集, 中间人攻击, 二分类, 人工智能安全, 僵尸网络, 入侵检测管道, 入侵检测系统, 勒索软件, 合规性, 多分类, 安全数据湖, 对抗性鲁棒性, 工业物联网, 工业网络安全, 异常检测, 智能基础设施, 机器学习, 模型可解释性, 物联网, 特征工程, 监督学习, 网络安全, 网络流量分析, 资源效率评估, 跨域泛化, 逆向工具, 配置错误, 隐私保护, 预测模型