manjunath796k-sys/Day6_Advanced_Pandas
GitHub: manjunath796k-sys/Day6_Advanced_Pandas
基于 Superstore 数据集的 Pandas 高级操作与 EDA 实践项目,涵盖数据清洗、特征工程、分组分析和异常检测等完整数据分析流程。
Stars: 0 | Forks: 0
# 第 6 天 - 高级 Pandas 与 EDA
## 项目概述
本项目基于使用 Python 的**高级 Pandas 与探索性数据分析 (EDA)**。
本项目使用 **Sample Superstore 数据集**来执行数据分析、数据处理、特征工程,并提取商业洞察。
## 使用的技术
- Python
- Pandas
- NumPy
## 项目功能
### 1. 数据加载与探索
- 加载 CSV 数据集
- 查看首尾记录
- 检查数据集信息
- 检查行数和列数
- 生成统计摘要
- 检查缺失值
### 2. 数据处理
- 创建唯一 ID 列
- 将数据集拆分为客户表和销售表
- 使用 ID 合并数据表
- 拼接数据集
### 3. 特征工程
创建新列:
- 利润率
- 单位销售额
- 盈亏状态
- 类别代码
使用:
- apply()
- map()
- NumPy 操作
### 4. 数据分析
执行:
- GroupBy 分析
- 多重聚合
- 透视表创建
- 日期处理
- 月度销售额分析
### 5. 高级 EDA
实现:
- 使用 IQR 方法进行异常值检测
- 相关性矩阵
- 变量间的关系分析
## 生成的洞察
本项目识别出:
- 销售额最高的地区
- 创收最多的类别
- 销售额与利润的关系
- 折扣对利润的影响
- 销售数据中的异常值数量
## 如何运行项目
### 安装必要的库
```
pip install pandas numpy
## 作者
Manjunath Kumbar
```
标签:Python, 代码示例, 探索性数据分析(EDA), 数据分析, 数据清洗, 无后门, 特征工程, 逆向工具