theKerimKerimov/headhunter-resume-data-analysis

GitHub: theKerimKerimov/headhunter-resume-data-analysis

该项目对 HeadHunter 招聘平台的简历数据集进行端到端的探索性数据分析,涵盖数据清洗、特征转换、异常值检测和交互式可视化。

Stars: 0 | Forks: 0

# HeadHunter 简历分析 ![Python](https://img.shields.io/badge/Python-3.10+-3776AB?style=for-the-badge&logo=python&logoColor=white) ![pandas](https://img.shields.io/badge/pandas-EDA-150458?style=for-the-badge&logo=pandas&logoColor=white) ![NumPy](https://img.shields.io/badge/NumPy-计算-013243?style=for-the-badge&logo=numpy&logoColor=white) ![Jupyter](https://img.shields.io/badge/Jupyter-Notebook-F37626?style=for-the-badge&logo=jupyter&logoColor=white) ![Plotly](https://img.shields.io/badge/Plotly-交互式图表-3D4F9F?style=for-the-badge&logo=plotly&logoColor=white) ![Matplotlib](https://img.shields.io/badge/Matplotlib-可视化-11557c?style=for-the-badge&logo=matplotlib&logoColor=white) ![Seaborn](https://img.shields.io/badge/Seaborn-统计-44AF77?style=for-the-badge) **EDA · 数据清洗 · feature engineering · 可视化 · Z-score (非对称边界)** 对来自 [HeadHunter](https://hh.ru) 的简历进行探索性数据分析:加载和转换特征、绘制交互式图表、寻找异常值并得出有关劳动力市场的结论。 ## 关于项目 | 阶段 | 完成内容 | |------|-------------| | 加载 | 读取 CSV,初步检查结构 | | 转换 | 教育、性别/年龄、经验、城市、one-hot 编码、根据汇率将工资转换为卢布 | | EDA | 基于教育、城市、流动性、年龄的分布和中位数 | | 清洗 | 重复数据,年龄异常值 (log + Z-score,左侧 3σ / 右侧 4σ) | | 可视化 | Plotly → HTML 文件位于 [`visualization/`](visualization/) 文件夹 | ## 技术栈 - **Python** 3.10+ - **pandas**, **NumPy** — 表格和特征 - **Plotly** — 主要图表(无需 Jupyter 即可打开) - **Matplotlib**, **Seaborn** — 直方图和清洗过程中的 Z-score - **Jupyter Notebook** — [`notebooks/headhunter_resume_eda.ipynb`](notebooks/headhunter_resume_eda.ipynb) ## 数据 主数据集 **>400 MB**,不包含在仓库中。 1. 下载:[Google Drive — 项目数据](https://drive.google.com/drive/folders/13KZHpvXoXhlcVe-zpxpHIGBcyoVTBgXG) 2. 放入 `data/` 并重命名: | Google Drive 文件 | 项目中的名称 | |---------------------|---------------| | 简历 CSV(在压缩包中可能有不同的名称) | `data/hh_resumes.csv` | | `ExchangeRates.csv` | `data/exchange_rates.csv` | 数据集采用 [HeadHunter](https://hh.ru) 格式(用于分析的公开转储)。仅供作品集和学习使用,不得用于商业爬取。 ## 快速开始 ``` git clone https://github.com/theKerimKerimov/headhunter-resume-data-analysis.git cd headhunter-resume-data-analysis python -m venv .venv # Windows: .venv\Scripts\activate # macOS / Linux: # source .venv/bin/activate pip install -r requirements.txt jupyter notebook notebooks/headhunter_resume_eda.ipynb ``` 在 Notebook 中:**Kernel → Restart & Run All**。 如果 Jupyter 是从仓库根目录或 `notebooks/` 文件夹启动的,那么指向 `data/` 和 `visualization/` 的路径是有效的。 ## 仓库结构 ``` headhunter-resume-data-analysis/ ├── notebooks/ │ └── headhunter_resume_eda.ipynb # основной анализ ├── data/ # датасеты (в .gitignore) ├── visualization/ # экспорт графиков Plotly (HTML) ├── requirements.txt ├── LICENSE └── README.md ``` ## 👤 作者 **Karim** · 2026 [![GitHub](https://img.shields.io/badge/GitHub-theKerimKerimov-181717?logo=github)](https://github.com/theKerimKerimov)
[![Kaggle](https://img.shields.io/badge/Kaggle-kerimkerimov-20BEFF?logo=kaggle&logoColor=white)](https://www.kaggle.com/kerimkerimov)
[![LinkedIn](https://img.shields.io/badge/LinkedIn-kerim--kerimov-0A66C2?logo=linkedin&logoColor=white)](https://www.linkedin.com/in/kerim-kerimov-79323b400)
[![LeetCode](https://img.shields.io/badge/LeetCode-KerimK-FFA116?logo=leetcode&logoColor=black)](https://leetcode.com/u/KerimK)
[![Email](https://img.shields.io/badge/Email-k.kerimow%40yandex.ru-EA4335?logo=gmail&logoColor=white)](mailto:k.kerimow@yandex.ru)
[![Telegram](https://img.shields.io/badge/Telegram-@theDagestani-26A5E4?logo=telegram&logoColor=white)](https://t.me/theDagestani)
📍 莫斯科 ## 许可证 MIT — 详见 [LICENSE](LICENSE)。原始数据的使用条款由数据集提供者决定。
标签:NoSQL, Python, 代码示例, 后端开发, 探索性数据分析, 数据分析, 数据清洗, 无后门, 特征工程, 逆向工具