pujithaparimi/DecodeLabs_Project1_Data_Preprocessing
GitHub: pujithaparimi/DecodeLabs_Project1_Data_Preprocessing
一个基于 Titanic 数据集的数据预处理教学项目,通过缺失值处理、IQR 异常值检测和特征工程为机器学习准备干净数据集。
Stars: 0 | Forks: 0
# 📊 DecodeLabs 项目 1:高级 EDA 与特征工程
## 🚀 项目概述
本项目是作为 DecodeLabs Data Science 实习计划的一部分完成的。
本项目的目标是通过探索性数据分析 (EDA) 和特征工程技术,将原始和非结构化数据转换为干净的、可用于机器学习的数据集。
## 🎯 目标
* 使用统计方法处理缺失值
* 使用 IQR 方法检测并移除异常值
* 从现有数据中创建新的预测特征
* 为机器学习应用准备数据集
## 🛠️ 使用的技术
* Python
* Pandas
* NumPy
## 📂 数据集
使用的数据集:Titanic 数据集
该数据集包含乘客信息,例如年龄、票价、性别、客舱等级和生存状态。
## 📋 执行的任务
### 1️⃣ 缺失值处理
使用统计插补技术处理了缺失值:
* Age → 中位数
* Fare → 中位数
* Embarked → 众数
### 2️⃣ 异常值检测和移除
使用四分位距 (IQR) 方法识别并移除了异常值。
这有助于提高数据质量并减少极端值的影响。
### 3️⃣ 特征工程
创建了三个新的预测特征:
| Feature | Description |
| ------------ | --------------------------------- |
| FamilySize | 一起旅行的家庭成员总数 |
| IsAlone | 指示乘客是否独自旅行 |
| AgeFareRatio | 年龄与票价的比率 |
## 📈 结果
* 成功处理了缺失值
* 移除了异常值
* 设计了新特征
* 为机器学习工作流准备了数据集
## 📸 输出截图
在下方添加你的输出截图:

## 📁 项目结构
DecodeLabs_Project1
├── titanic.csv
├── cleaned_titanic.csv
├── project1.py
├── output.png
└── README.md
## 🎓 学习成果
* 数据清洗
* 统计插补
* 异常值检测
* 特征工程
* 探索性数据分析 (EDA)
## 👩💻 作者
Pujitha Parimi
DecodeLabs Data Science 实习 2026
标签:Python, 探索性数据分析, 数据科学, 数据预处理, 无后门, 特征工程, 资源验证, 逆向工具