kainat-fareed/eda-hr-analytics

GitHub: kainat-fareed/eda-hr-analytics

一个针对员工晋升数据的探索性数据分析项目,旨在揭示晋升驱动因素与潜在公平性问题,并为机器学习建模做数据准备。

Stars: 0 | Forks: 0

# 晋升准备度分析 – EDA 项目 ### HR 分析案例研究 ## 概述 在该数据集中,**仅有 8.52% 的员工获得晋升** —— 但究竟是什么在驱动晋升决策? 本项目分析了来自一家跨国组织的 **78,298 条员工记录**,旨在揭示: - 晋升的关键驱动因素 - 决策过程中的潜在模式 - 高绩效员工的信号 - 影响 HR 分析的数据质量问题 目标是将原始 HR 数据转化为**具有可操作性的商业洞察**。 ## 商业问题 组织通常难以做出公平且一致的晋升决策: - 高绩效员工可能会被忽视 - 晋升模式因部门和地区而异 - 决策往往缺乏数据驱动的基础 本项目使用**探索性数据分析 (EDA)** 来揭示模式,并支持更好的 HR 决策。 ## 数据集 来源:[Kaggle HR 分析数据集](https://www.kaggle.com/datasets/arashnic/hr-ana) 总记录数:78,298 名员工 - 训练集:54,808 (70%) - 测试集:23,490 (30%) 两个数据划分包含完全相同的特征 **核心特征:** age, previous_year_rating, length_of_service, awards_won, avg_training_score ## 我的工作 ### 数据清洗 - 处理缺失值: - education → 用 "Unknown" 填充 - previous_year_rating → 使用众数填充 - 验证了训练集/测试集数据集之间的一致性 ### 探索性数据分析 - 对数值型和类别型变量进行单变量分析 - 进行双变量分析以识别与晋升相关的模式 - 绘制相关性热力图以检查多重共线性 ## 主要发现 - 晋升情况高度不平衡: - **8.52% 获得晋升,91.48% 未获得晋升** - 晋升的最强驱动因素: - previous_year_rating - avg_training_score - awards_won - 晋升模式在以下维度存在差异: - 部门 - 学历水平 - 招聘渠道 - 部分高绩效员工在特定部门中似乎未获得应有的晋升 - 无显著的多重共线性 → 该数据集适合用于 ML 建模 ## 使用技术 Python, Pandas, NumPy, Matplotlib, Seaborn, Scikit-learn ## 后续步骤 - 特征编码 - 处理类别不平衡 - 构建模型(Logistic Regression, Random Forest, XGBoost) - 模型评估与优化 ## 项目影响 - 识别晋升决策中的模式 - 突出潜在的公平性问题以供进一步调查 - 构建适合机器学习的数据集 - 实现用于决策支持的预测性 HR 分析 ## 结论 员工晋升决策在很大程度上受绩效指标的影响,例如培训分数、过往评级以及获奖情况。 此分析展示了如何利用数据实现从**主观决策 → 基于证据的 HR 战略**的转变。
标签:Apex, 人力资源分析, 代码示例, 探索性数据分析, 数据分析, 数据清洗, 数据科学, 机器学习, 资源验证, 逆向工具