arora-nikita/ghost-job-detection-fraud-monitoring

GitHub: arora-nikita/ghost-job-detection-fraud-monitoring

利用特征工程和随机森林机器学习模型检测虚假职位发布,并通过交互式 Power BI 仪表板监控欺诈风险。

Stars: 0 | Forks: 0

# 虚假职位检测与欺诈监控 使用特征工程、随机森林机器学习模型以及交互式 Power BI 仪表板检测欺诈性(“虚假”)职位发布。 ## 项目目标 许多招聘网站包含虚假或误导性的职位发布,其创建目的在于收集数据、进行宣传或欺骗求职者。 本项目通过基于可疑模式构建“虚假评分”(Ghost Score),并训练机器学习模型来分类欺诈风险,从而识别此类职位发布。 ## 数据集 本项目使用 Kaggle 上提供的虚假职位发布数据集(Fake Job Postings Dataset): 数据集链接: https://www.kaggle.com/datasets/shivamb/real-or-fake-fake-jobposting-prediction 由于文件大小限制,本仓库未包含该数据集。 ### 使用数据集的步骤 从上述链接下载数据集 将 CSV 文件放置在本项目的 data 文件夹中 运行 notebook/脚本以重现结果 ## 项目工作流程 * 对原始职位发布数据进行数据清洗和预处理 * 特征工程,以识别欺诈指标(缺失薪资、关键词、公司信息等) * 创建自定义的 Ghost Score 以量化欺诈风险 * 训练随机森林模型对职位发布进行分类 * 探索性数据分析(EDA)以发现主要的欺诈驱动因素 * 构建用于欺诈监控的交互式 Power BI 仪表板 ## 构建的关键特征 * 薪资缺失指标公司简介缺失指标 * 可疑关键词计数(例如,earn money, quick cash) * 描述长度 * 雇佣类型处理 * Ghost Score 计算 * 风险等级划分(安全、可疑、极可能是虚假) ## 机器学习模型 * 算法:随机森林分类器 * 目标变量:欺诈性职位(0 / 1) * 输出:欺诈概率和风险分类 ## Power BI 仪表板 该仪表板可视化内容如下: * Ghost Score 分布 * 各风险等级的欺诈率 * 缺失薪资对欺诈的影响 * 雇佣类型与欺诈的关系 * 各行业的风险率 ## 仓库结构 ``` ghost-job-detection-fraud-monitoring/│ ├── notebook/ │ └── ghost_job_detection.ipynb │ ├── powerbi/ │ └── ghost_job_dashboard.pbix │ ├── images/ │ ├── dashboard.png │ ├── ghost_score_chart.png │ └── fraud_by_risk.png │ ├── INSIGHTS.md │ └── README.md ``` ## 使用的工具和技术 * Python (Pandas, NumPy, Scikit-learn, Matplotlib, Seaborn) * Power BI (DAX, 数据建模, 可视化) * Jupyter Notebook ## 结果 该项目成功识别了虚假职位发布中常见的模式,并将其分类为不同的风险等级,帮助用户和平台有效地检测欺诈性列表。 ## 作者 Nikita Arora
标签:Apex, Ghost Score, Kaggle数据集, NoSQL, Power BI, Python, 分类模型, 商业智能(BI), 探索性数据分析(EDA), 数据清洗, 数据科学, 数据预处理, 无后门, 机器学习, 欺诈监控, 欺诈风险评分, 求职安全, 特征工程, 网络安全, 虚假职位检测, 资源验证, 逆向工具, 随机森林, 隐私保护