kajalmangrole-afk/Real-time-hospot-monitoring
GitHub: kajalmangrole-afk/Real-time-hospot-monitoring
这是一个实时网络监控管道,用于捕获和分析热点设备的连接、带宽和DNS活动,解决网络流量实时监控和异常检测问题。
Stars: 0 | Forks: 0
# 实时热点监控
基于Kafka、Python、Linux网络工具和Databricks结构化流构建的实时网络监控与数据流处理管道。
## 项目概述
本项目捕获联网设备的互联网使用活动,并将事件流式传输至Kafka进行实时分析处理。
管道采集数据类型:
- 连接事件
- 断开连接事件
- 带宽使用日志
- DNS/域名活动日志
- 异常检测事件
所有事件均被转换为结构化JSON格式,并通过Aiven云托管的Kafka主题进行流式传输。
Databricks结构化流消费Kafka数据流,将处理后的数据存储至Delta Lake青铜表层,供后续分析和监控使用。
## 系统架构
联网设备
↓
Windows网络环境
↓
Python Kafka生产者
↓
Kafka主题(Aiven云)
↓
Databricks结构化流
↓
Delta Lake青铜层
## 使用技术
- Python
- Apache Kafka
- PySpark
- Databricks
- Delta Lake
- Windows网络工具
- GitHub
- CI/CD
## Kafka主题
项目中使用的Kafka主题:
- `connection_events`
- `bandwidth_events`
- `dns_activity_events`
- `anomaly_events`
## 功能特性
- 实时事件流式传输
- 安全的Kafka SSL认证
- 结构化JSON事件生成
- Databricks流处理集成
- Delta Lake青铜层存储
- 容错检查点机制
- 可扩展的流处理架构
## 项目结构
```
Real-time-hospot-monitoring/
│
├── producers/
│ ├── connection_producer.py
│ ├── bandwidth_producer.py
│ ├── dns_producer.py
│ └── anomaly_producer.py
│
├── databricks/
│ └── kafka_stream.py
│
├── .github/
│ └── workflows/
│
├── requirements.txt
├── README.md
└── .gitignore
```
## Databricks流处理
流式处理管道执行流程:
- Kafka主题订阅
- 实时数据流摄入
- 事件转换处理
- 内存汇聚流处理
- Delta青铜层存储
## 安全机制
Kafka通信通过以下方式保障安全:
- SASL_SSL协议
- PEM证书认证
- 客户端身份验证
- SSL信任存储配置
## 未来增强功能
- 银层和金层Delta表层
- 实时数据看板
- 告警系统
- 基于机器学习的异常检测
- 自动化CI/CD部署流程
标签:Apache Kafka, Databricks, Delta Lake, DNS活动, Gradle集成, PySpark, Python, SSL认证, 事件日志, 大数据, 实时数据分析, 带宽监控, 异常检测, 数据流处理, 数据湖, 数据管道, 无后门, 流处理, 流计算, 热点监控, 目录扫描, 软件工程, 软件成分分析, 逆向工具