manjunath796k-sys/Day6_Advanced_Pandas

GitHub: manjunath796k-sys/Day6_Advanced_Pandas

基于 Superstore 数据集的 Pandas 高级操作与 EDA 实践项目,涵盖数据清洗、特征工程、分组分析和异常检测等完整数据分析流程。

Stars: 0 | Forks: 0

# 第 6 天 - 高级 Pandas 与 EDA ## 项目概述 本项目基于使用 Python 的**高级 Pandas 与探索性数据分析 (EDA)**。 本项目使用 **Sample Superstore 数据集**来执行数据分析、数据处理、特征工程,并提取商业洞察。 ## 使用的技术 - Python - Pandas - NumPy ## 项目功能 ### 1. 数据加载与探索 - 加载 CSV 数据集 - 查看首尾记录 - 检查数据集信息 - 检查行数和列数 - 生成统计摘要 - 检查缺失值 ### 2. 数据处理 - 创建唯一 ID 列 - 将数据集拆分为客户表和销售表 - 使用 ID 合并数据表 - 拼接数据集 ### 3. 特征工程 创建新列: - 利润率 - 单位销售额 - 盈亏状态 - 类别代码 使用: - apply() - map() - NumPy 操作 ### 4. 数据分析 执行: - GroupBy 分析 - 多重聚合 - 透视表创建 - 日期处理 - 月度销售额分析 ### 5. 高级 EDA 实现: - 使用 IQR 方法进行异常值检测 - 相关性矩阵 - 变量间的关系分析 ## 生成的洞察 本项目识别出: - 销售额最高的地区 - 创收最多的类别 - 销售额与利润的关系 - 折扣对利润的影响 - 销售数据中的异常值数量 ## 如何运行项目 ### 安装必要的库 ``` pip install pandas numpy ## 作者 Manjunath Kumbar ```
标签:Python, 代码示例, 探索性数据分析(EDA), 数据分析, 数据清洗, 无后门, 特征工程, 逆向工具