nansss135/finalCredit
GitHub: nansss135/finalCredit
针对信用风险数据集的完整预处理与特征工程项目,将原始数据转化为可直接用于机器学习建模的干净数据集。
Stars: 0 | Forks: 0
# 信用风险数据预处理与特征工程
## 项目概述
本项目专注于对信用风险数据集进行预处理,以提高数据质量并为其在机器学习中的应用做好准备。我们应用了各种技术来处理缺失值、检测异常值、对分类变量进行编码、对数值特征进行缩放,以及创建有意义的新特征。
最终输出是一个可直接用于机器学习的数据集,适用于信用风险评估和贷款违约预测。
## 数据集特征
- customer_id
- age
- gender
- region
- education_level
- employment_type
- annual_income
- loan_amount
- loan_purpose
- credit_score
- repayment_history
- transaction_count
- spending_ratio
- join_date
- default_flag
## 缺失值处理
应用的技术:
- 均值插补
- 中位数插补
- 众数插补
- 缺失指示符
- 随机采样插补
- KNN 插补器
- MICE(链式方程多重插补)
- 完整案例分析
## 异常值检测
使用的方法:
- Z-Score 方法
- IQR 方法
- 百分位数法
## 异常值处理
- Winsorization(缩尾处理)
## 编码技术
### Label Encoding(标签编码)
应用于:
- Gender(性别)
### Ordinal Encoding(序数编码)
应用于:
- Education Level(教育水平)
### One-Hot Encoding(独热编码)
应用于:
- Region(地区)
## 特征缩放
### 标准化
对年收入使用了 StandardScaler。
### 归一化
对贷款金额使用了 MinMaxScaler。
## 特征工程
创建的新特征:
- 债务收入比
- 客户保有期
## 使用的库
- Pandas
- NumPy
- Matplotlib
- Seaborn
- Scikit-Learn
- SciPy
- ydata-profiling
## 学习成果
- 数据清洗
- 缺失值处理
- 异常值处理
- 数据转换
- 特征工程
- 机器学习的数据准备
## 最终成果
一个干净且转换完成的数据集,可直接用于以下机器学习模型:
- Logistic Regression
- Decision Tree
- Random Forest
- XGBoost
- 信用风险预测模型
## 作者
Nandani Rajput
计算机科学与工程 B.Tech
AI 与机器学习
标签:Python, Scikit-Learn, 代码示例, 后端开发, 数据分析, 数据预处理, 无后门, 特征工程, 逆向工具, 金融风控