arora-nikita/ghost-job-detection-fraud-monitoring
GitHub: arora-nikita/ghost-job-detection-fraud-monitoring
利用特征工程和随机森林机器学习模型检测虚假职位发布,并通过交互式 Power BI 仪表板监控欺诈风险。
Stars: 0 | Forks: 0
# 虚假职位检测与欺诈监控
使用特征工程、随机森林机器学习模型以及交互式 Power BI 仪表板检测欺诈性(“虚假”)职位发布。
## 项目目标
许多招聘网站包含虚假或误导性的职位发布,其创建目的在于收集数据、进行宣传或欺骗求职者。
本项目通过基于可疑模式构建“虚假评分”(Ghost Score),并训练机器学习模型来分类欺诈风险,从而识别此类职位发布。
## 数据集
本项目使用 Kaggle 上提供的虚假职位发布数据集(Fake Job Postings Dataset):
数据集链接:
https://www.kaggle.com/datasets/shivamb/real-or-fake-fake-jobposting-prediction
由于文件大小限制,本仓库未包含该数据集。
### 使用数据集的步骤
从上述链接下载数据集
将 CSV 文件放置在本项目的 data 文件夹中
运行 notebook/脚本以重现结果
## 项目工作流程
* 对原始职位发布数据进行数据清洗和预处理
* 特征工程,以识别欺诈指标(缺失薪资、关键词、公司信息等)
* 创建自定义的 Ghost Score 以量化欺诈风险
* 训练随机森林模型对职位发布进行分类
* 探索性数据分析(EDA)以发现主要的欺诈驱动因素
* 构建用于欺诈监控的交互式 Power BI 仪表板
## 构建的关键特征
* 薪资缺失指标公司简介缺失指标
* 可疑关键词计数(例如,earn money, quick cash)
* 描述长度
* 雇佣类型处理
* Ghost Score 计算
* 风险等级划分(安全、可疑、极可能是虚假)
## 机器学习模型
* 算法:随机森林分类器
* 目标变量:欺诈性职位(0 / 1)
* 输出:欺诈概率和风险分类
## Power BI 仪表板
该仪表板可视化内容如下:
* Ghost Score 分布
* 各风险等级的欺诈率
* 缺失薪资对欺诈的影响
* 雇佣类型与欺诈的关系
* 各行业的风险率
## 仓库结构
```
ghost-job-detection-fraud-monitoring/│
├── notebook/
│ └── ghost_job_detection.ipynb
│
├── powerbi/
│ └── ghost_job_dashboard.pbix
│
├── images/
│ ├── dashboard.png
│ ├── ghost_score_chart.png
│ └── fraud_by_risk.png
│
├── INSIGHTS.md
│
└── README.md
```
## 使用的工具和技术
* Python (Pandas, NumPy, Scikit-learn, Matplotlib, Seaborn)
* Power BI (DAX, 数据建模, 可视化)
* Jupyter Notebook
## 结果
该项目成功识别了虚假职位发布中常见的模式,并将其分类为不同的风险等级,帮助用户和平台有效地检测欺诈性列表。
## 作者
Nikita Arora
标签:Apex, Ghost Score, Kaggle数据集, NoSQL, Power BI, Python, 分类模型, 商业智能(BI), 探索性数据分析(EDA), 数据清洗, 数据科学, 数据预处理, 无后门, 机器学习, 欺诈监控, 欺诈风险评分, 求职安全, 特征工程, 网络安全, 虚假职位检测, 资源验证, 逆向工具, 随机森林, 隐私保护