pujithaparimi/DecodeLabs_Project1_Data_Preprocessing

GitHub: pujithaparimi/DecodeLabs_Project1_Data_Preprocessing

一个基于 Titanic 数据集的数据预处理教学项目，通过缺失值处理、IQR 异常值检测和特征工程为机器学习准备干净数据集。

Stars: 0 | Forks: 0

# 📊 DecodeLabs 项目 1：高级 EDA 与特征工程 ## 🚀 项目概述本项目是作为 DecodeLabs Data Science 实习计划的一部分完成的。本项目的目标是通过探索性数据分析 (EDA) 和特征工程技术，将原始和非结构化数据转换为干净的、可用于机器学习的数据集。 ## 🎯 目标 * 使用统计方法处理缺失值 * 使用 IQR 方法检测并移除异常值 * 从现有数据中创建新的预测特征 * 为机器学习应用准备数据集 ## 🛠️ 使用的技术 * Python * Pandas * NumPy ## 📂 数据集使用的数据集：Titanic 数据集该数据集包含乘客信息，例如年龄、票价、性别、客舱等级和生存状态。 ## 📋 执行的任务 ### 1️⃣ 缺失值处理使用统计插补技术处理了缺失值： * Age → 中位数 * Fare → 中位数 * Embarked → 众数 ### 2️⃣ 异常值检测和移除使用四分位距 (IQR) 方法识别并移除了异常值。这有助于提高数据质量并减少极端值的影响。 ### 3️⃣ 特征工程创建了三个新的预测特征： | Feature | Description | | ------------ | --------------------------------- | | FamilySize | 一起旅行的家庭成员总数 | | IsAlone | 指示乘客是否独自旅行 | | AgeFareRatio | 年龄与票价的比率 | ## 📈 结果 * 成功处理了缺失值 * 移除了异常值 * 设计了新特征 * 为机器学习工作流准备了数据集 ## 📸 输出截图在下方添加你的输出截图： ![项目输出](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/4a4376a9b7122507.png) ## 📁 项目结构 DecodeLabs_Project1 ├── titanic.csv ├── cleaned_titanic.csv ├── project1.py ├── output.png └── README.md ## 🎓 学习成果 * 数据清洗 * 统计插补 * 异常值检测 * 特征工程 * 探索性数据分析 (EDA) ## 👩‍💻 作者 Pujitha Parimi DecodeLabs Data Science 实习 2026

标签：Python, 探索性数据分析, 数据科学, 数据预处理, 无后门, 特征工程, 资源验证, 逆向工具