kainat-fareed/eda-hr-analytics
GitHub: kainat-fareed/eda-hr-analytics
一个针对员工晋升数据的探索性数据分析项目,旨在揭示晋升驱动因素与潜在公平性问题,并为机器学习建模做数据准备。
Stars: 0 | Forks: 0
# 晋升准备度分析 – EDA 项目
### HR 分析案例研究
## 概述
在该数据集中,**仅有 8.52% 的员工获得晋升** —— 但究竟是什么在驱动晋升决策?
本项目分析了来自一家跨国组织的 **78,298 条员工记录**,旨在揭示:
- 晋升的关键驱动因素
- 决策过程中的潜在模式
- 高绩效员工的信号
- 影响 HR 分析的数据质量问题
目标是将原始 HR 数据转化为**具有可操作性的商业洞察**。
## 商业问题
组织通常难以做出公平且一致的晋升决策:
- 高绩效员工可能会被忽视
- 晋升模式因部门和地区而异
- 决策往往缺乏数据驱动的基础
本项目使用**探索性数据分析 (EDA)** 来揭示模式,并支持更好的 HR 决策。
## 数据集
来源:[Kaggle HR 分析数据集](https://www.kaggle.com/datasets/arashnic/hr-ana)
总记录数:78,298 名员工
- 训练集:54,808 (70%)
- 测试集:23,490 (30%)
两个数据划分包含完全相同的特征
**核心特征:**
age, previous_year_rating, length_of_service, awards_won, avg_training_score
## 我的工作
### 数据清洗
- 处理缺失值:
- education → 用 "Unknown" 填充
- previous_year_rating → 使用众数填充
- 验证了训练集/测试集数据集之间的一致性
### 探索性数据分析
- 对数值型和类别型变量进行单变量分析
- 进行双变量分析以识别与晋升相关的模式
- 绘制相关性热力图以检查多重共线性
## 主要发现
- 晋升情况高度不平衡:
- **8.52% 获得晋升,91.48% 未获得晋升**
- 晋升的最强驱动因素:
- previous_year_rating
- avg_training_score
- awards_won
- 晋升模式在以下维度存在差异:
- 部门
- 学历水平
- 招聘渠道
- 部分高绩效员工在特定部门中似乎未获得应有的晋升
- 无显著的多重共线性 → 该数据集适合用于 ML 建模
## 使用技术
Python, Pandas, NumPy, Matplotlib, Seaborn, Scikit-learn
## 后续步骤
- 特征编码
- 处理类别不平衡
- 构建模型(Logistic Regression, Random Forest, XGBoost)
- 模型评估与优化
## 项目影响
- 识别晋升决策中的模式
- 突出潜在的公平性问题以供进一步调查
- 构建适合机器学习的数据集
- 实现用于决策支持的预测性 HR 分析
## 结论
员工晋升决策在很大程度上受绩效指标的影响,例如培训分数、过往评级以及获奖情况。
此分析展示了如何利用数据实现从**主观决策 → 基于证据的 HR 战略**的转变。
标签:Apex, 人力资源分析, 代码示例, 探索性数据分析, 数据分析, 数据清洗, 数据科学, 机器学习, 资源验证, 逆向工具