hilalay3-creator/house-price-predictionn

GitHub: hilalay3-creator/house-price-predictionn

基于 Ames 数据集的房价预测机器学习项目,使用 Lasso 回归实现端到端数据工程与建模。

Stars: 0 | Forks: 0

🏠 房价预测 - Bitirme Projesi (Hilal Ay) 📖 项目概要 本研究是在 Ames Housing 数据集上开发的端到端机器学习项目,旨在预测房价。项目范围内对原始数据进行了深入分析 (EDA),完成了数据清洗,并利用 Lasso/Ridge 回归模型实现了价格预测。 🔗 数据集链接 (Kaggle) 您可以通过 Kaggle 访问所使用的数据集及其详细信息: House Prices: Advanced Regression Techniques https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data 🛠️ 安装说明 为了运行项目,您需要在 VS Code 或任意 Python 编辑器中安装以下库: 打开您的终端。 输入以下命令,一次性安装所有必需的库(Pandas、Scikit-learn 等): Bash pip install -r requirements.txt 🚀 如何运行? 项目文件结构是相互依赖的: 将下载的 train.csv 文件放入 data/ 文件夹中。 用 VS Code 打开 notebooks/01_modeling.py 文件。 该文件已设置为从 ../data/train.csv 路径自动读取数据。 运行文件后,您可以在终端中查看分析报告和模型的成功得分。 📊 结果指标(冠军模型:Lasso) R² 得分:90.54%(准确率) MAE (平均绝对误差):16,045.91 $ RMSE (均方根误差):22,277.02 $ 💡 简要评论与结论 项目期间提高模型成功率的关键工程决策如下: 异常值:视觉分析结果表明,居住面积超过 4000 平方米的房屋会导致模型偏差,因此清理了这些数据,从而提高了模型的泛化能力。 重复列:通过相关性矩阵识别出相似度在 90% 及以上的“重复列”并将其剔除。此操作使模型免受噪声干扰,并直接影响了成功率。 缺失值填充:分类空白用“None”进行填充,对于车库和建造年份等数值数据,通过逻辑验证 (Proof) 确保了数据集的一致性。 编制:Hilal Ay (电气工程硕士候选人)
标签:Ames Housing, Apex, Kaggle竞赛, L1正则化, Lasso回归, MAE, Python, Ridge回归, RMSE, R平方, Scikit-learn, 代码示例, 回归分析, 异常值检测, 房价预测, 房地产估值, 数据分析, 数据工程, 数据科学, 无后门, 机器学习, 模型优化, 特征选择, 监督学习, 端到端项目, 资源验证, 逆向工具, 预测建模