martinatn95-wq/conectatel-analysis
GitHub: martinatn95-wq/conectatel-analysis
一个基于电信事件数据集的用户行为分析项目,通过数据清洗、异常值检测和特征工程生成可指导决策的用户参与度洞察。
Stars: 0 | Forks: 0
# 用户行为分析 (EDA)
## 项目目标
本项目旨在通过事件数据集分析用户行为,识别交互模式、参与度以及数据质量中可能存在的问题。
主要目标包括:
* 了解每位用户的使用频率
* 分析事件的持续时间和交互水平
* 检测数据中的不一致之处
* 生成有助于决策的洞察
## 使用的数据集
本分析基于模拟的用户活动数据集,包含以下主要变量:
* `id`:每个事件的唯一标识符
* `user_id`:用户标识符
* `duration`:事件持续时间
* `length`:交互长度(例如,文本)
* `city`:用户所在城市
* `plan`:套餐类型(基础 / 高级)
* `usage_type`:使用类型(call / text)
## 分析阶段
### 1. 初步探索 (EDA)
* 查看描述性统计信息 (`describe`)
* 识别异常值和数据分布
* 检测缺失值
### 2. 数据清洗
* 替换无效值(`-999`, `0`)
* 处理空值
* 标准化分类变量(例如,带有 `?` 等值的 city)
### 3. 异常值检测与处理
* 使用 IQR(四分位距)方法
* 删除或限制 (capping) 极端值
### 4. Feature Engineering
* 创建基于用户的指标:
* 事件数量
* 平均持续时间
* 平均交互长度
### 5. 行为分析
* 用户细分
* 持续时间与使用类型之间的关系
* 按套餐类型进行比较
## 如何运行 notebook
您可以通过以下方式运行此分析:
### 选项 : 本地 (Jupyter Notebook)
1. 克隆此仓库:
```
git clone https://github.com/martinatn95-wq/conectatel-analysis
```
## 关键结果
* 识别出不一致的数据(值为 0 和 -999)
* 在持续时间和长度方面存在显著的异常值
* 不同类型用户的行为差异
* 结构化为事件级别的数据集,便于进行参与度分析
## 展示的技能
* 数据清洗与预处理
* 探索性数据分析 (EDA)
* 异常值检测
* Feature Engineering
* 用户行为分析
## 备注
本项目是专注于数据分析的作品集的一部分,旨在模拟真实的商业案例。
标签:NoSQL, 代码示例, 探索性数据分析(EDA), 数据分析, 数据清洗, 特征工程, 用户行为分析, 逆向工具