kainat-fareed/eda-hr-analytics

GitHub: kainat-fareed/eda-hr-analytics

一个针对员工晋升数据的探索性数据分析项目，旨在揭示晋升驱动因素与潜在公平性问题，并为机器学习建模做数据准备。

Stars: 0 | Forks: 0

# 晋升准备度分析 – EDA 项目 ### HR 分析案例研究 ## 概述在该数据集中，**仅有 8.52% 的员工获得晋升** —— 但究竟是什么在驱动晋升决策？本项目分析了来自一家跨国组织的 **78,298 条员工记录**，旨在揭示： - 晋升的关键驱动因素 - 决策过程中的潜在模式 - 高绩效员工的信号 - 影响 HR 分析的数据质量问题目标是将原始 HR 数据转化为**具有可操作性的商业洞察**。 ## 商业问题组织通常难以做出公平且一致的晋升决策： - 高绩效员工可能会被忽视 - 晋升模式因部门和地区而异 - 决策往往缺乏数据驱动的基础本项目使用**探索性数据分析 (EDA)** 来揭示模式，并支持更好的 HR 决策。 ## 数据集来源：[Kaggle HR 分析数据集](https://www.kaggle.com/datasets/arashnic/hr-ana) 总记录数：78,298 名员工 - 训练集：54,808 (70%) - 测试集：23,490 (30%) 两个数据划分包含完全相同的特征 **核心特征：** age, previous_year_rating, length_of_service, awards_won, avg_training_score ## 我的工作 ### 数据清洗 - 处理缺失值： - education → 用 "Unknown" 填充 - previous_year_rating → 使用众数填充 - 验证了训练集/测试集数据集之间的一致性 ### 探索性数据分析 - 对数值型和类别型变量进行单变量分析 - 进行双变量分析以识别与晋升相关的模式 - 绘制相关性热力图以检查多重共线性 ## 主要发现 - 晋升情况高度不平衡： - **8.52% 获得晋升，91.48% 未获得晋升** - 晋升的最强驱动因素： - previous_year_rating - avg_training_score - awards_won - 晋升模式在以下维度存在差异： - 部门 - 学历水平 - 招聘渠道 - 部分高绩效员工在特定部门中似乎未获得应有的晋升 - 无显著的多重共线性 → 该数据集适合用于 ML 建模 ## 使用技术 Python, Pandas, NumPy, Matplotlib, Seaborn, Scikit-learn ## 后续步骤 - 特征编码 - 处理类别不平衡 - 构建模型（Logistic Regression, Random Forest, XGBoost） - 模型评估与优化 ## 项目影响 - 识别晋升决策中的模式 - 突出潜在的公平性问题以供进一步调查 - 构建适合机器学习的数据集 - 实现用于决策支持的预测性 HR 分析 ## 结论员工晋升决策在很大程度上受绩效指标的影响，例如培训分数、过往评级以及获奖情况。此分析展示了如何利用数据实现从**主观决策 → 基于证据的 HR 战略**的转变。

标签：Apex, 人力资源分析, 代码示例, 探索性数据分析, 数据分析, 数据清洗, 数据科学, 机器学习, 资源验证, 逆向工具