exwaized/Synthetic-Telecom-CDR-Generator

GitHub: exwaized/Synthetic-Telecom-CDR-Generator

一个生成逼真电信通话记录数据的合成工具,用于解决数据隐私和获取问题,支持AI/ML应用开发。

Stars: 0 | Forks: 0

# 合成-电信-CDR-生成器 生成逼真的电信通话记录,包含5种用户画像(商务用户、重度用户、低使用用户、漫游用户、数据爱好者)、时间模式和地理分布。非常适合用于流失预测、网络优化以及在没有隐私担忧的情况下训练生成式AI代理。 # 📱 合成电信CDR生成器 [![Python 3.9+](https://img.shields.io/badge/python-3.9+-blue.svg)](https://www.python.org/downloads/) [![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) [![Code style: black](https://img.shields.io/badge/code%20style-black-000000.svg)](https://github.com/psf/black) ## 🎯 这解决了什么问题? 电信公司在AI/ML创新方面面临三大障碍: | 障碍 | 本项目如何解决 | |------|---------------| | **🔒 数据隐私** | 无法共享真实客户数据。本项目生成具有相同统计特性但零PII的合成数据。 | | **⏰ 数据获取** | 获取真实数据需要数周的法律审批。本项目可在30秒内提供即时数据。 | | **📊 基准测试** | 缺乏标准数据集。本项目为比较模型创建可重现的基准。 | ## ✨ 核心功能 - **🚀 高性能**:30秒内生成30,000多条CDR记录 - **👥 5种逼真用户画像**:商务用户、重度用户、低使用用户、漫游用户、数据爱好者 - **🕒 时间模式**:早/晚高峰、周末与工作日行为差异 - **📍 地理分布**:10个印度城市,每个城市5个基站 - **🔒 隐私优先**:无真实PII、哈希标识符、支持差分隐私 - **📊 内置验证**:质量评分、分布检查、异常检测 - **🎨 交互式仪表板**:用于数据探索的Plotly可视化 - **🐳 生产就绪**:支持Docker、CI/CD流水线、85%以上测试覆盖率 ## 📊 生成的数据结构 | 列名 | 类型 | 描述 | |------|------|------| | `cdr_id` | 字符串 | 唯一记录标识符 | | `subscriber_id` | 字符串 | 哈希后的用户标识符 | | `timestamp` | 日期时间 | 通话/短信/数据会话时间 | | `call_duration_sec` | 整数 | 持续时间(秒)(短信/数据为0) | | `call_type` | 字符串 | MOBILE_ORIG、MOBILE_TERM、SMS、DATA_SESSION、INTERNATIONAL、ROAMING | | `tower_id` | 字符串 | 基站标识符 | | `city` | 字符串 | 城市名称(如孟买、德里等) | | `data_usage_mb` | 浮点数 | 消耗的数据量(MB) | | `profile_type` | 字符串 | 用户行为画像 | | `plan_type` | 字符串 | prepaid/postpaid(预付费/后付费) | | `tenure_days` | 浮点数 | 客户生命周期(天) | ## 🎯 合成电信CDR数据的完整用例 1. **流失预测** - 在客户取消订阅前识别可能流失的客户 2. **网络拥塞** - 发现过载的基站并优化流量分配 3. **生成式AI代理训练** - 生成逼真的事件数据以训练用于网络分析的LLM代理 4. **客户细分** - 按行为模式对用户进行分组,以进行定向营销 5. **定价优化** - 基于实际使用模式设计最优的套餐层级 6. **欺诈检测** - 发现表明SIM卡盒欺诈或资费欺诈的异常通话模式 7. **劳动力规划** - 预测通话量以优化呼叫中心人员配置 8. **企业客户留存** - 识别有流失风险的高价值商业客户 9. **覆盖盲区** - 发现网络覆盖差或漫游率高的地理区域 10. **机器学习基准测试** - 在标准、可重现的数据集上比较不同算法 ## 🚀 快速开始 ### output "Google Colab" as is, or perhaps with a minor adaptation if needed.
标签:AI/ML应用, CI/CD流程, Docker容器化, GenAI训练, Plotly可视化, Python开发, 二进制发布, 交互式仪表板, 印度市场, 合成数据, 地理分布, 基准测试数据集, 差分隐私, 开源工具, 异常检测, 数据匿名化, 数据质量验证, 时间模式, 流失预测, 用户配置文件, 电信数据生成, 网络优化, 网络安全, 蜂窝塔建模, 请求拦截, 逆向工具, 通话记录, 隐私保护, 高性能计算