martinatn95-wq/conectatel-analysis

GitHub: martinatn95-wq/conectatel-analysis

一个基于电信事件数据集的用户行为分析项目,通过数据清洗、异常值检测和特征工程生成可指导决策的用户参与度洞察。

Stars: 0 | Forks: 0

# 用户行为分析 (EDA) ## 项目目标 本项目旨在通过事件数据集分析用户行为,识别交互模式、参与度以及数据质量中可能存在的问题。 主要目标包括: * 了解每位用户的使用频率 * 分析事件的持续时间和交互水平 * 检测数据中的不一致之处 * 生成有助于决策的洞察 ## 使用的数据集 本分析基于模拟的用户活动数据集,包含以下主要变量: * `id`:每个事件的唯一标识符 * `user_id`:用户标识符 * `duration`:事件持续时间 * `length`:交互长度(例如,文本) * `city`:用户所在城市 * `plan`:套餐类型(基础 / 高级) * `usage_type`:使用类型(call / text) ## 分析阶段 ### 1. 初步探索 (EDA) * 查看描述性统计信息 (`describe`) * 识别异常值和数据分布 * 检测缺失值 ### 2. 数据清洗 * 替换无效值(`-999`, `0`) * 处理空值 * 标准化分类变量(例如,带有 `?` 等值的 city) ### 3. 异常值检测与处理 * 使用 IQR(四分位距)方法 * 删除或限制 (capping) 极端值 ### 4. Feature Engineering * 创建基于用户的指标: * 事件数量 * 平均持续时间 * 平均交互长度 ### 5. 行为分析 * 用户细分 * 持续时间与使用类型之间的关系 * 按套餐类型进行比较 ## 如何运行 notebook 您可以通过以下方式运行此分析: ### 选项 : 本地 (Jupyter Notebook) 1. 克隆此仓库: ``` git clone https://github.com/martinatn95-wq/conectatel-analysis ``` ## 关键结果 * 识别出不一致的数据(值为 0 和 -999) * 在持续时间和长度方面存在显著的异常值 * 不同类型用户的行为差异 * 结构化为事件级别的数据集,便于进行参与度分析 ## 展示的技能 * 数据清洗与预处理 * 探索性数据分析 (EDA) * 异常值检测 * Feature Engineering * 用户行为分析 ## 备注 本项目是专注于数据分析的作品集的一部分,旨在模拟真实的商业案例。
标签:NoSQL, 代码示例, 探索性数据分析(EDA), 数据分析, 数据清洗, 特征工程, 用户行为分析, 逆向工具