akashdeepsingh-DS/5g-network-analytics

GitHub: akashdeepsingh-DS/5g-network-analytics

一个基于 PySpark 和机器学习构建的端到端 5G 电信网络性能分析平台,用于处理海量会话数据、自动检测网络异常并预测掉线故障。

Stars: 0 | Forks: 0

# 5G 网络性能分析与故障预测平台 ## 概述 一个端到端的电信分析项目,旨在模拟网络运营团队如何使用大规模遥测数据来监控服务质量、检测异常会话并分析掉线情况。 本项目使用 **PySpark, Python, Machine Learning 和 Power BI** 构建,将原始的 5G 网络会话数据转化为可执行的操作洞察。 ## 业务问题 电信运营商每天处理跨多个运营商、设备、城市和网络技术的数千个网络会话。 服务质量不佳可能导致: - 高延迟 - 信号强度弱 - 下载/上传速度慢 - 拥塞问题 - 掉线 - 糟糕的客户体验 ### 本项目旨在回答: - 哪些运营商和城市的表现最好? - 哪些因素与掉线有关? - 能否自动检测异常的网络会话? - 能否使用 ML 预测连接故障? ## 架构 ``` Raw CSV Dataset ↓ PySpark Data Ingestion ↓ Data Cleaning & Validation ↓ Feature Engineering ↓ KPI & Root Cause Analytics ↓ Anomaly Detection ↓ Predictive Modeling ↓ Power BI Dashboard ``` ## 技术栈 ### 语言与库 - Python - PySpark - Pandas - NumPy - Scikit-learn ### 可视化 - Power BI ### 开发工具 - VS Code - Jupyter Notebook - GitHub ## 项目结构 ``` 5g-network-analytics/ │── data/ │ ├── raw/ │ ├── processed/ │ └── output/ │ │── src/ │ ├── data_ingestion.py │ ├── data_cleaning.py │ ├── feature_engineering.py │ ├── kpi_analysis.py │ ├── root_cause_analysis.py │ ├── anomaly_detection.py │ └── predictive_model.py │ │── dashboard/ │── README.md │── requirements.txt ``` ## 数据集摘要 - 50,000 条网络会话记录 - 多个城市和运营商 - 4G / 5G 网络类型 - 设备和性能遥测 ### 关键字段 - Timestamp - Location - Carrier - Network Type - Signal Strength - Download Speed - Upload Speed - Latency - Jitter - Congestion Level - Dropped Connection ### 核心功能 - 数据工程 - 使用 PySpark 处理原始电信遥测数据 - 清理 schema 并标准化列名 - 创建就绪的分析数据集 - 特征工程 - 构建了派生指标,例如: 信号质量分组 Latency 类别 Congestion 标志 弱信号指示器 Total latency 速度差 - KPI 分析 - 分析了: 平均下载/上传速度 平均 Latency 和 Jitter 掉线率 % 运营商表现 城市表现 4G 与 5G 对比 - 根因分析 - 探索了以下关系: Congestion 与故障 Signal Strength 与服务质量 运营商性能差异 Latency 热点 - 异常检测 - 使用 Isolation Forest 识别异常会话,例如: Latency 飙升 低吞吐量 弱信号事件 - 预测建模 - 构建 Random Forest 分类器以预测掉线并评估特征重要性。 ### 主要结果 - KPI 亮点 - 总会话数:50,000 - 平均下载速度:551 Mbps - 平均上传速度:84 Mbps - 平均 Latency:10.5 ms - 掉线率:50% - 异常检测 - 正常会话:48,500 - 检测到的异常:1,500 - 模型输出 - Random Forest 准确率:49% - 展示了数据质量和目标信号在 ML 工作流程中的重要性 ## Power BI 仪表板 构建了一个交互式运营仪表板,包含: - 执行摘要 - 总会话数 - 平均速度 - 平均 Latency - 掉线率 - 异常数量 - 性能分析 - 运营商对比 - 各城市速度 - Latency 趋势 - 信号质量洞察 - 故障智能 - 按 Congestion 划分的掉线率 - 按 Signal Quality 划分的掉线率 - 根因可视化 - AI 监控 - 异常趋势 - 特征重要性 - 风险指标 ## 如何运行 - 安装依赖 pip install -r requirements.txt - 运行 Pipeline python src/data_ingestion.py python src/data_cleaning.py python src/feature_engineering.py python src/kpi_analysis.py python src/root_cause_analysis.py python src/anomaly_detection.py python src/predictive_model.py - 未来改进 使用 Kafka 进行实时流处理 Azure Databricks 部署 MLflow 实验跟踪 Grafana 监控仪表板 时间序列预测 集成真实的生产电信数据 - 作者 Akash Deep Singh Barrie, Ontario, Canada Data Analyst | Machine Learning | Big Data | AI Enthusiast
标签:5G, Apex, IT运维, KPI分析, NumPy, Power BI, PySpark, Python, Scikit-learn, Socks5代理, 业务分析, 商业智能, 大数据处理, 异常检测, 掉线预测, 故障预测, 数据工程, 数据清洗, 无后门, 机器学习, 根因分析, 特征工程, 电信数据分析, 端到端数据分析, 网络性能分析, 网络质量监控, 网络遥测, 逆向工具