akashdeepsingh-DS/5g-network-analytics
GitHub: akashdeepsingh-DS/5g-network-analytics
一个基于 PySpark 和机器学习构建的端到端 5G 电信网络性能分析平台,用于处理海量会话数据、自动检测网络异常并预测掉线故障。
Stars: 0 | Forks: 0
# 5G 网络性能分析与故障预测平台
## 概述
一个端到端的电信分析项目,旨在模拟网络运营团队如何使用大规模遥测数据来监控服务质量、检测异常会话并分析掉线情况。
本项目使用 **PySpark, Python, Machine Learning 和 Power BI** 构建,将原始的 5G 网络会话数据转化为可执行的操作洞察。
## 业务问题
电信运营商每天处理跨多个运营商、设备、城市和网络技术的数千个网络会话。
服务质量不佳可能导致:
- 高延迟
- 信号强度弱
- 下载/上传速度慢
- 拥塞问题
- 掉线
- 糟糕的客户体验
### 本项目旨在回答:
- 哪些运营商和城市的表现最好?
- 哪些因素与掉线有关?
- 能否自动检测异常的网络会话?
- 能否使用 ML 预测连接故障?
## 架构
```
Raw CSV Dataset
↓
PySpark Data Ingestion
↓
Data Cleaning & Validation
↓
Feature Engineering
↓
KPI & Root Cause Analytics
↓
Anomaly Detection
↓
Predictive Modeling
↓
Power BI Dashboard
```
## 技术栈
### 语言与库
- Python
- PySpark
- Pandas
- NumPy
- Scikit-learn
### 可视化
- Power BI
### 开发工具
- VS Code
- Jupyter Notebook
- GitHub
## 项目结构
```
5g-network-analytics/
│── data/
│ ├── raw/
│ ├── processed/
│ └── output/
│
│── src/
│ ├── data_ingestion.py
│ ├── data_cleaning.py
│ ├── feature_engineering.py
│ ├── kpi_analysis.py
│ ├── root_cause_analysis.py
│ ├── anomaly_detection.py
│ └── predictive_model.py
│
│── dashboard/
│── README.md
│── requirements.txt
```
## 数据集摘要
- 50,000 条网络会话记录
- 多个城市和运营商
- 4G / 5G 网络类型
- 设备和性能遥测
### 关键字段
- Timestamp
- Location
- Carrier
- Network Type
- Signal Strength
- Download Speed
- Upload Speed
- Latency
- Jitter
- Congestion Level
- Dropped Connection
### 核心功能
- 数据工程
- 使用 PySpark 处理原始电信遥测数据
- 清理 schema 并标准化列名
- 创建就绪的分析数据集
- 特征工程
- 构建了派生指标,例如:
信号质量分组
Latency 类别
Congestion 标志
弱信号指示器
Total latency
速度差
- KPI 分析
- 分析了:
平均下载/上传速度
平均 Latency 和 Jitter
掉线率 %
运营商表现
城市表现
4G 与 5G 对比
- 根因分析
- 探索了以下关系:
Congestion 与故障
Signal Strength 与服务质量
运营商性能差异
Latency 热点
- 异常检测
- 使用 Isolation Forest 识别异常会话,例如:
Latency 飙升
低吞吐量
弱信号事件
- 预测建模
- 构建 Random Forest 分类器以预测掉线并评估特征重要性。
### 主要结果
- KPI 亮点
- 总会话数:50,000
- 平均下载速度:551 Mbps
- 平均上传速度:84 Mbps
- 平均 Latency:10.5 ms
- 掉线率:50%
- 异常检测
- 正常会话:48,500
- 检测到的异常:1,500
- 模型输出
- Random Forest 准确率:49%
- 展示了数据质量和目标信号在 ML 工作流程中的重要性
## Power BI 仪表板
构建了一个交互式运营仪表板,包含:
- 执行摘要
- 总会话数
- 平均速度
- 平均 Latency
- 掉线率
- 异常数量
- 性能分析
- 运营商对比
- 各城市速度
- Latency 趋势
- 信号质量洞察
- 故障智能
- 按 Congestion 划分的掉线率
- 按 Signal Quality 划分的掉线率
- 根因可视化
- AI 监控
- 异常趋势
- 特征重要性
- 风险指标
## 如何运行
- 安装依赖
pip install -r requirements.txt
- 运行 Pipeline
python src/data_ingestion.py
python src/data_cleaning.py
python src/feature_engineering.py
python src/kpi_analysis.py
python src/root_cause_analysis.py
python src/anomaly_detection.py
python src/predictive_model.py
- 未来改进
使用 Kafka 进行实时流处理
Azure Databricks 部署
MLflow 实验跟踪
Grafana 监控仪表板
时间序列预测
集成真实的生产电信数据
- 作者
Akash Deep Singh
Barrie, Ontario, Canada
Data Analyst | Machine Learning | Big Data | AI Enthusiast
标签:5G, Apex, IT运维, KPI分析, NumPy, Power BI, PySpark, Python, Scikit-learn, Socks5代理, 业务分析, 商业智能, 大数据处理, 异常检测, 掉线预测, 故障预测, 数据工程, 数据清洗, 无后门, 机器学习, 根因分析, 特征工程, 电信数据分析, 端到端数据分析, 网络性能分析, 网络质量监控, 网络遥测, 逆向工具