theKerimKerimov/headhunter-resume-data-analysis
GitHub: theKerimKerimov/headhunter-resume-data-analysis
该项目对 HeadHunter 招聘平台的简历数据集进行端到端的探索性数据分析,涵盖数据清洗、特征转换、异常值检测和交互式可视化。
Stars: 0 | Forks: 0
# HeadHunter 简历分析







**EDA · 数据清洗 · feature engineering · 可视化 · Z-score (非对称边界)**
对来自 [HeadHunter](https://hh.ru) 的简历进行探索性数据分析:加载和转换特征、绘制交互式图表、寻找异常值并得出有关劳动力市场的结论。
## 关于项目
| 阶段 | 完成内容 |
|------|-------------|
| 加载 | 读取 CSV,初步检查结构 |
| 转换 | 教育、性别/年龄、经验、城市、one-hot 编码、根据汇率将工资转换为卢布 |
| EDA | 基于教育、城市、流动性、年龄的分布和中位数 |
| 清洗 | 重复数据,年龄异常值 (log + Z-score,左侧 3σ / 右侧 4σ) |
| 可视化 | Plotly → HTML 文件位于 [`visualization/`](visualization/) 文件夹 |
## 技术栈
- **Python** 3.10+
- **pandas**, **NumPy** — 表格和特征
- **Plotly** — 主要图表(无需 Jupyter 即可打开)
- **Matplotlib**, **Seaborn** — 直方图和清洗过程中的 Z-score
- **Jupyter Notebook** — [`notebooks/headhunter_resume_eda.ipynb`](notebooks/headhunter_resume_eda.ipynb)
## 数据
主数据集 **>400 MB**,不包含在仓库中。
1. 下载:[Google Drive — 项目数据](https://drive.google.com/drive/folders/13KZHpvXoXhlcVe-zpxpHIGBcyoVTBgXG)
2. 放入 `data/` 并重命名:
| Google Drive 文件 | 项目中的名称 |
|---------------------|---------------|
| 简历 CSV(在压缩包中可能有不同的名称) | `data/hh_resumes.csv` |
| `ExchangeRates.csv` | `data/exchange_rates.csv` |
数据集采用 [HeadHunter](https://hh.ru) 格式(用于分析的公开转储)。仅供作品集和学习使用,不得用于商业爬取。
## 快速开始
```
git clone https://github.com/theKerimKerimov/headhunter-resume-data-analysis.git
cd headhunter-resume-data-analysis
python -m venv .venv
# Windows:
.venv\Scripts\activate
# macOS / Linux:
# source .venv/bin/activate
pip install -r requirements.txt
jupyter notebook notebooks/headhunter_resume_eda.ipynb
```
在 Notebook 中:**Kernel → Restart & Run All**。
如果 Jupyter 是从仓库根目录或 `notebooks/` 文件夹启动的,那么指向 `data/` 和 `visualization/` 的路径是有效的。
## 仓库结构
```
headhunter-resume-data-analysis/
├── notebooks/
│ └── headhunter_resume_eda.ipynb # основной анализ
├── data/ # датасеты (в .gitignore)
├── visualization/ # экспорт графиков Plotly (HTML)
├── requirements.txt
├── LICENSE
└── README.md
```
## 👤 作者
**Karim** · 2026
[](https://github.com/theKerimKerimov)
[](https://www.kaggle.com/kerimkerimov)
[](https://www.linkedin.com/in/kerim-kerimov-79323b400)
[](https://leetcode.com/u/KerimK)
[](mailto:k.kerimow@yandex.ru)
[](https://t.me/theDagestani)
📍 莫斯科 ## 许可证 MIT — 详见 [LICENSE](LICENSE)。原始数据的使用条款由数据集提供者决定。
[](https://www.kaggle.com/kerimkerimov)
[](https://www.linkedin.com/in/kerim-kerimov-79323b400)
[](https://leetcode.com/u/KerimK)
[](mailto:k.kerimow@yandex.ru)
[](https://t.me/theDagestani)
📍 莫斯科 ## 许可证 MIT — 详见 [LICENSE](LICENSE)。原始数据的使用条款由数据集提供者决定。
标签:NoSQL, Python, 代码示例, 后端开发, 探索性数据分析, 数据分析, 数据清洗, 无后门, 特征工程, 逆向工具