nds-group/ETC_NOMS_2024
GitHub: nds-group/ETC_NOMS_2024
利用 P4 可编程交换机和随机森林机器学习模型,仅基于数据包大小与到达时间特征,实现无需解密的线速加密流量实时分类。
Stars: 20 | Forks: 10
# 基于机器学习的可编程交换机线速加密流量分类
本仓库包含了我们关于在可编程交换机中使用 P4 和机器学习进行加密流量分类 (ETC) 研究的源代码。该研究发表在 2024 年 5 月 6 日至 10 日于韩国首尔举行的 IEEE/IFIP NOMS 2024 会议论文集中,以及 2025 年 1 月由 Wiley 出版的《International Journal of Network Management》(第 35 卷第 1 期)中。
## ETC 框架概述
本研究利用了数据平面可编程性的最新进展,在可编程交换机中实现了具有高吞吐量和低延迟的线速实时 ETC。提出的解决方案包括 构建适配 ETC 的随机森林 (RF) 建模过程,其中仅使用基于数据包大小和数据包到达时间的特征;(ii) 将训练好的 RF 模型编码部署到生产级的 P4 可编程交换机中。
欲了解完整详情,请参阅我们的:
- [会议论文:基于机器学习的可编程交换机线速加密流量分类](https://dspace.networks.imdea.org/bitstream/handle/20.500.12761/1791/etc_noms24_postprint.pdf?sequence=1&isAllowed=y);
- [期刊论文:基于 P4 和机器学习的可编程网络实时加密流量分类](https://onlinelibrary.wiley.com/doi/epdf/10.1002/nem.2320);
## 仓库组织结构
包含两个文件夹:
- _In_switch_ETC_ :用于交换机内 RF 模型的训练和编码的 Python 与 P4 代码。
- _Offline_ETC_ :用于离线数据分析和 ETC 建模过程的 Python 代码。
## 用例
论文中考虑的用例包括:
- 基于公开可用的 Netflow QUIC 数据集的 QUIC 流量分类。其挑战在于将流量分为 5 个类别之一。
- 基于 NIMS 实验室提供的 加密即时通讯数据集,进行包含 6 个类别的加密即时通讯应用指纹识别。
- 区分 7 个类别的 VPN 流量分类。它基于 ISCX-VPN-NonVPN-2016 数据集。
我们提供了用于包含 6 个类别的加密即时通讯应用分类用例的 Python 和 P4 代码。
相同的特征/模型选择及 P4 编码方法同样适用于所有用例。 ## 引用 如果您使用了本代码,请引用我们的论文: ``` @inproceedings{etc-noms-2024, author={Akem, Aristide Tanyi-Jong and Fraysse, Guillaume and Fiore, Marco}, booktitle={NOMS 2024-2024 IEEE Network Operations and Management Symposium}, title={Encrypted Traffic Classification at Line Rate in Programmable Switches with Machine Learning}, year={2024}, volume={}, number={}, pages={1-9}, doi={10.1109/NOMS59830.2024.10575394}} @article{etc-ijnm-2025, author = {Akem, Aristide Tanyi-Jong and Fraysse, Guillaume and Fiore, Marco}, title = {Real-Time Encrypted Traffic Classification in Programmable Networks with P4 and Machine Learning}, journal = {International Journal of Network Management}, volume = {35}, number = {1}, pages = {e2320}, doi = {https://doi.org/10.1002/nem.2320}, url = {https://onlinelibrary.wiley.com/doi/abs/10.1002/nem.2320}, eprint = {https://onlinelibrary.wiley.com/doi/pdf/10.1002/nem.2320}, note = {e2320 nem.2320}, year = {2025}} ``` 如果您需要任何更多信息,请发送电子邮件至 _imdea.org_ 的 _aristide.akem_。
本研究利用了数据平面可编程性的最新进展,在可编程交换机中实现了具有高吞吐量和低延迟的线速实时 ETC。提出的解决方案包括 构建适配 ETC 的随机森林 (RF) 建模过程,其中仅使用基于数据包大小和数据包到达时间的特征;(ii) 将训练好的 RF 模型编码部署到生产级的 P4 可编程交换机中。
欲了解完整详情,请参阅我们的:
- [会议论文:基于机器学习的可编程交换机线速加密流量分类](https://dspace.networks.imdea.org/bitstream/handle/20.500.12761/1791/etc_noms24_postprint.pdf?sequence=1&isAllowed=y);
- [期刊论文:基于 P4 和机器学习的可编程网络实时加密流量分类](https://onlinelibrary.wiley.com/doi/epdf/10.1002/nem.2320);
## 仓库组织结构
包含两个文件夹:
- _In_switch_ETC_ :用于交换机内 RF 模型的训练和编码的 Python 与 P4 代码。
- _Offline_ETC_ :用于离线数据分析和 ETC 建模过程的 Python 代码。
## 用例
论文中考虑的用例包括:
- 基于公开可用的 Netflow QUIC 数据集的 QUIC 流量分类。其挑战在于将流量分为 5 个类别之一。
- 基于 NIMS 实验室提供的 加密即时通讯数据集,进行包含 6 个类别的加密即时通讯应用指纹识别。
- 区分 7 个类别的 VPN 流量分类。它基于 ISCX-VPN-NonVPN-2016 数据集。
我们提供了用于包含 6 个类别的加密即时通讯应用分类用例的 Python 和 P4 代码。相同的特征/模型选择及 P4 编码方法同样适用于所有用例。 ## 引用 如果您使用了本代码,请引用我们的论文: ``` @inproceedings{etc-noms-2024, author={Akem, Aristide Tanyi-Jong and Fraysse, Guillaume and Fiore, Marco}, booktitle={NOMS 2024-2024 IEEE Network Operations and Management Symposium}, title={Encrypted Traffic Classification at Line Rate in Programmable Switches with Machine Learning}, year={2024}, volume={}, number={}, pages={1-9}, doi={10.1109/NOMS59830.2024.10575394}} @article{etc-ijnm-2025, author = {Akem, Aristide Tanyi-Jong and Fraysse, Guillaume and Fiore, Marco}, title = {Real-Time Encrypted Traffic Classification in Programmable Networks with P4 and Machine Learning}, journal = {International Journal of Network Management}, volume = {35}, number = {1}, pages = {e2320}, doi = {https://doi.org/10.1002/nem.2320}, url = {https://onlinelibrary.wiley.com/doi/abs/10.1002/nem.2320}, eprint = {https://onlinelibrary.wiley.com/doi/pdf/10.1002/nem.2320}, note = {e2320 nem.2320}, year = {2025}} ``` 如果您需要任何更多信息,请发送电子邮件至 _imdea.org_ 的 _aristide.akem_。
标签:Apex, ETC, IEEE/IFIP, NOMS 2024, P4语言, QUIC协议, SDN, 低延迟, 到达时间间隔, 加密流量分类, 可编程交换机, 国际网络管理杂志, 实时流量分析, 异常检测, 数据包大小, 机器学习, 流量特征提取, 线速处理, 网络安全, 网络数据面可编程, 网络管理与测量, 软件定义网络, 逆向工具, 随机森林, 隐私保护, 高吞吐量