exwaized/Synthetic-Telecom-CDR-Generator
GitHub: exwaized/Synthetic-Telecom-CDR-Generator
一个生成逼真电信通话记录数据的合成工具,用于解决数据隐私和获取问题,支持AI/ML应用开发。
Stars: 0 | Forks: 0
# 合成-电信-CDR-生成器
生成逼真的电信通话记录,包含5种用户画像(商务用户、重度用户、低使用用户、漫游用户、数据爱好者)、时间模式和地理分布。非常适合用于流失预测、网络优化以及在没有隐私担忧的情况下训练生成式AI代理。
# 📱 合成电信CDR生成器
[](https://www.python.org/downloads/)
[](https://opensource.org/licenses/MIT)
[](https://github.com/psf/black)
## 🎯 这解决了什么问题?
电信公司在AI/ML创新方面面临三大障碍:
| 障碍 | 本项目如何解决 |
|------|---------------|
| **🔒 数据隐私** | 无法共享真实客户数据。本项目生成具有相同统计特性但零PII的合成数据。 |
| **⏰ 数据获取** | 获取真实数据需要数周的法律审批。本项目可在30秒内提供即时数据。 |
| **📊 基准测试** | 缺乏标准数据集。本项目为比较模型创建可重现的基准。 |
## ✨ 核心功能
- **🚀 高性能**:30秒内生成30,000多条CDR记录
- **👥 5种逼真用户画像**:商务用户、重度用户、低使用用户、漫游用户、数据爱好者
- **🕒 时间模式**:早/晚高峰、周末与工作日行为差异
- **📍 地理分布**:10个印度城市,每个城市5个基站
- **🔒 隐私优先**:无真实PII、哈希标识符、支持差分隐私
- **📊 内置验证**:质量评分、分布检查、异常检测
- **🎨 交互式仪表板**:用于数据探索的Plotly可视化
- **🐳 生产就绪**:支持Docker、CI/CD流水线、85%以上测试覆盖率
## 📊 生成的数据结构
| 列名 | 类型 | 描述 |
|------|------|------|
| `cdr_id` | 字符串 | 唯一记录标识符 |
| `subscriber_id` | 字符串 | 哈希后的用户标识符 |
| `timestamp` | 日期时间 | 通话/短信/数据会话时间 |
| `call_duration_sec` | 整数 | 持续时间(秒)(短信/数据为0) |
| `call_type` | 字符串 | MOBILE_ORIG、MOBILE_TERM、SMS、DATA_SESSION、INTERNATIONAL、ROAMING |
| `tower_id` | 字符串 | 基站标识符 |
| `city` | 字符串 | 城市名称(如孟买、德里等) |
| `data_usage_mb` | 浮点数 | 消耗的数据量(MB) |
| `profile_type` | 字符串 | 用户行为画像 |
| `plan_type` | 字符串 | prepaid/postpaid(预付费/后付费) |
| `tenure_days` | 浮点数 | 客户生命周期(天) |
## 🎯 合成电信CDR数据的完整用例
1. **流失预测** - 在客户取消订阅前识别可能流失的客户
2. **网络拥塞** - 发现过载的基站并优化流量分配
3. **生成式AI代理训练** - 生成逼真的事件数据以训练用于网络分析的LLM代理
4. **客户细分** - 按行为模式对用户进行分组,以进行定向营销
5. **定价优化** - 基于实际使用模式设计最优的套餐层级
6. **欺诈检测** - 发现表明SIM卡盒欺诈或资费欺诈的异常通话模式
7. **劳动力规划** - 预测通话量以优化呼叫中心人员配置
8. **企业客户留存** - 识别有流失风险的高价值商业客户
9. **覆盖盲区** - 发现网络覆盖差或漫游率高的地理区域
10. **机器学习基准测试** - 在标准、可重现的数据集上比较不同算法
## 🚀 快速开始
### output "Google Colab" as is, or perhaps with a minor adaptation if needed.
标签:AI/ML应用, CI/CD流程, Docker容器化, GenAI训练, Plotly可视化, Python开发, 二进制发布, 交互式仪表板, 印度市场, 合成数据, 地理分布, 基准测试数据集, 差分隐私, 开源工具, 异常检测, 数据匿名化, 数据质量验证, 时间模式, 流失预测, 用户配置文件, 电信数据生成, 网络优化, 网络安全, 蜂窝塔建模, 请求拦截, 逆向工具, 通话记录, 隐私保护, 高性能计算