nansss135/finalCredit

GitHub: nansss135/finalCredit

针对信用风险数据集的完整预处理与特征工程项目,将原始数据转化为可直接用于机器学习建模的干净数据集。

Stars: 0 | Forks: 0

# 信用风险数据预处理与特征工程 ## 项目概述 本项目专注于对信用风险数据集进行预处理,以提高数据质量并为其在机器学习中的应用做好准备。我们应用了各种技术来处理缺失值、检测异常值、对分类变量进行编码、对数值特征进行缩放,以及创建有意义的新特征。 最终输出是一个可直接用于机器学习的数据集,适用于信用风险评估和贷款违约预测。 ## 数据集特征 - customer_id - age - gender - region - education_level - employment_type - annual_income - loan_amount - loan_purpose - credit_score - repayment_history - transaction_count - spending_ratio - join_date - default_flag ## 缺失值处理 应用的技术: - 均值插补 - 中位数插补 - 众数插补 - 缺失指示符 - 随机采样插补 - KNN 插补器 - MICE(链式方程多重插补) - 完整案例分析 ## 异常值检测 使用的方法: - Z-Score 方法 - IQR 方法 - 百分位数法 ## 异常值处理 - Winsorization(缩尾处理) ## 编码技术 ### Label Encoding(标签编码) 应用于: - Gender(性别) ### Ordinal Encoding(序数编码) 应用于: - Education Level(教育水平) ### One-Hot Encoding(独热编码) 应用于: - Region(地区) ## 特征缩放 ### 标准化 对年收入使用了 StandardScaler。 ### 归一化 对贷款金额使用了 MinMaxScaler。 ## 特征工程 创建的新特征: - 债务收入比 - 客户保有期 ## 使用的库 - Pandas - NumPy - Matplotlib - Seaborn - Scikit-Learn - SciPy - ydata-profiling ## 学习成果 - 数据清洗 - 缺失值处理 - 异常值处理 - 数据转换 - 特征工程 - 机器学习的数据准备 ## 最终成果 一个干净且转换完成的数据集,可直接用于以下机器学习模型: - Logistic Regression - Decision Tree - Random Forest - XGBoost - 信用风险预测模型 ## 作者 Nandani Rajput 计算机科学与工程 B.Tech AI 与机器学习
标签:Python, Scikit-Learn, 代码示例, 后端开发, 数据分析, 数据预处理, 无后门, 特征工程, 逆向工具, 金融风控