nansss135/finalCredit

GitHub: nansss135/finalCredit

针对信用风险数据集的完整预处理与特征工程项目，将原始数据转化为可直接用于机器学习建模的干净数据集。

Stars: 0 | Forks: 0

# 信用风险数据预处理与特征工程 ## 项目概述本项目专注于对信用风险数据集进行预处理，以提高数据质量并为其在机器学习中的应用做好准备。我们应用了各种技术来处理缺失值、检测异常值、对分类变量进行编码、对数值特征进行缩放，以及创建有意义的新特征。最终输出是一个可直接用于机器学习的数据集，适用于信用风险评估和贷款违约预测。 ## 数据集特征 - customer_id - age - gender - region - education_level - employment_type - annual_income - loan_amount - loan_purpose - credit_score - repayment_history - transaction_count - spending_ratio - join_date - default_flag ## 缺失值处理应用的技术： - 均值插补 - 中位数插补 - 众数插补 - 缺失指示符 - 随机采样插补 - KNN 插补器 - MICE（链式方程多重插补） - 完整案例分析 ## 异常值检测使用的方法： - Z-Score 方法 - IQR 方法 - 百分位数法 ## 异常值处理 - Winsorization（缩尾处理） ## 编码技术 ### Label Encoding（标签编码）应用于： - Gender（性别） ### Ordinal Encoding（序数编码）应用于： - Education Level（教育水平） ### One-Hot Encoding（独热编码）应用于： - Region（地区） ## 特征缩放 ### 标准化对年收入使用了 StandardScaler。 ### 归一化对贷款金额使用了 MinMaxScaler。 ## 特征工程创建的新特征： - 债务收入比 - 客户保有期 ## 使用的库 - Pandas - NumPy - Matplotlib - Seaborn - Scikit-Learn - SciPy - ydata-profiling ## 学习成果 - 数据清洗 - 缺失值处理 - 异常值处理 - 数据转换 - 特征工程 - 机器学习的数据准备 ## 最终成果一个干净且转换完成的数据集，可直接用于以下机器学习模型： - Logistic Regression - Decision Tree - Random Forest - XGBoost - 信用风险预测模型 ## 作者 Nandani Rajput 计算机科学与工程 B.Tech AI 与机器学习

标签：Python, Scikit-Learn, 代码示例, 后端开发, 数据分析, 数据预处理, 无后门, 特征工程, 逆向工具, 金融风控