hilalay3-creator/house-price-predictionn
GitHub: hilalay3-creator/house-price-predictionn
基于 Ames 数据集的房价预测机器学习项目,使用 Lasso 回归实现端到端数据工程与建模。
Stars: 0 | Forks: 0
🏠 房价预测 - Bitirme Projesi (Hilal Ay)
📖 项目概要
本研究是在 Ames Housing 数据集上开发的端到端机器学习项目,旨在预测房价。项目范围内对原始数据进行了深入分析 (EDA),完成了数据清洗,并利用 Lasso/Ridge 回归模型实现了价格预测。
🔗 数据集链接 (Kaggle)
您可以通过 Kaggle 访问所使用的数据集及其详细信息:
House Prices: Advanced Regression Techniques
https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data
🛠️ 安装说明
为了运行项目,您需要在 VS Code 或任意 Python 编辑器中安装以下库:
打开您的终端。
输入以下命令,一次性安装所有必需的库(Pandas、Scikit-learn 等):
Bash
pip install -r requirements.txt
🚀 如何运行?
项目文件结构是相互依赖的:
将下载的 train.csv 文件放入 data/ 文件夹中。
用 VS Code 打开 notebooks/01_modeling.py 文件。
该文件已设置为从 ../data/train.csv 路径自动读取数据。
运行文件后,您可以在终端中查看分析报告和模型的成功得分。
📊 结果指标(冠军模型:Lasso)
R² 得分:90.54%(准确率)
MAE (平均绝对误差):16,045.91 $
RMSE (均方根误差):22,277.02 $
💡 简要评论与结论
项目期间提高模型成功率的关键工程决策如下:
异常值:视觉分析结果表明,居住面积超过 4000 平方米的房屋会导致模型偏差,因此清理了这些数据,从而提高了模型的泛化能力。
重复列:通过相关性矩阵识别出相似度在 90% 及以上的“重复列”并将其剔除。此操作使模型免受噪声干扰,并直接影响了成功率。
缺失值填充:分类空白用“None”进行填充,对于车库和建造年份等数值数据,通过逻辑验证 (Proof) 确保了数据集的一致性。
编制:Hilal Ay (电气工程硕士候选人)
标签:Ames Housing, Apex, Kaggle竞赛, L1正则化, Lasso回归, MAE, Python, Ridge回归, RMSE, R平方, Scikit-learn, 代码示例, 回归分析, 异常值检测, 房价预测, 房地产估值, 数据分析, 数据工程, 数据科学, 无后门, 机器学习, 模型优化, 特征选择, 监督学习, 端到端项目, 资源验证, 逆向工具, 预测建模