Rudhabh-Upadhye-26/FDOT-

GitHub: Rudhabh-Upadhye-26/FDOT-

基于机器学习的端到端在线交易欺诈检测系统,涵盖特征工程、风险评分、模型调优及可视化仪表板,帮助支付业务在欺诈防范与客户体验之间取得平衡。

Stars: 0 | Forks: 0

# 在线交易欺诈检测- 使用机器学习、特征工程、风险评分和仪表板进行端到端的在线交易欺诈检测。 # 在线交易欺诈检测 ## 项目概述 本项目为 **PaySphere Digital Payments** 开发了一个端到端的机器学习解决方案,用于检测在线交易欺诈。其目标是在识别欺诈交易的同时,尽量减少客户阻力,并支持实时的欺诈风险评估。 本项目遵循完整的数据科学工作流,从数据验证和探索性分析,到模型开发、阈值调优、欺诈风险评分以及业务建议。 ## 业务目标 本项目的主要目标是: - 检测欺诈性在线交易。 - 减少因欺诈造成的财务损失。 - 提高欺诈分析师的运营效率。 - 在欺诈防范与客户体验之间取得平衡。 - 构建一个具有可解释性且适合面试展示的机器学习解决方案。 ## 数据集 本项目使用了一个合成在线交易数据集,其中包含客户、商户、设备、支付和交易相关的信息。 ### 数据集摘要 - 总交易量:**50,000** - 问题类型:**二分类** - 目标变量:**is_fraud** ## 项目工作流 ### 阶段 1 – 数据集理解 - 数据集概述 - 数据类型 - 目标识别 - 类别分布 - 数值型、类别型、日期时间型和 ID 列 ### 阶段 2 – 数据验证 - 主键验证 - 重复项检测 - 缺失值分析 - 业务规则验证 - 时间戳验证 - 数据质量评估 ### 阶段 3 – 数据清洗 - 缺失值处理 - 移除重复项 - 数据类型修正 - 提升数据一致性 ### 阶段 4 – 聚焦欺诈的探索性数据分析 - 欺诈分布 - 交易金额分析 - 客户行为 - 设备分析 - 商户分析 - 位置分析 - 时间分析 - 支付方式分析 ### 阶段 5 – 特征工程 创建了针对欺诈的特定特征,包括: - 交易速度 - 历史平均金额 - 金额偏差分数 - 设备熟悉度分数 - 设备变更标记 - 位置变更标记 - 商户风险分数 - 时段风险 - 星期风险 - 高风险支付方式标记 - 综合风险指数 ### 阶段 6 – 预处理 - One-Hot Encoding - 特征缩放 - 训练集与测试集划分 ### 阶段 7 – 类别不平衡处理 - 类别权重策略 ### 阶段 8–10 – 模型构建 - Logistic Regression - Random Forest - XGBoost ### 阶段 11 – 模型比较 模型评估使用了以下指标: - Accuracy - Precision - Recall - F1 Score - ROC-AUC - PR-AUC ### 阶段 12 – 阈值调优 评估了多个概率阈值,以平衡欺诈检测和客户体验。 ### 阶段 13 – 最终模型分析 - 混淆矩阵 - 特征重要性 - 欺诈驱动因素 ### 阶段 14 – 欺诈风险评分 交易被划分为以下类别: - 低风险 - 中风险 - 高风险 - 极高风险 ### 阶段 15 – 业务行动 基于风险的运营决策: - 低风险 → 批准 - 中风险 → OTP 验证 - 高风险 → 人工审核 - 极高风险 → 强制拦截 ### 阶段 16 – 业务建议 为以下团队提供了建议: - 欺诈风险团队 - 支付工程团队 - 客户体验团队 - 数据科学团队 ## 机器学习模型 评估了以下监督学习模型: 1. Logistic Regression 2. Random Forest 3. XGBoost ## 最终模型 **选定模型:** Logistic Regression 最终模型是基于面向业务的评估指标而非整体准确率选出的。 优先指标: 1. Recall 2. PR-AUC 3. F1 Score 进行了阈值调优以优化欺诈检测性能。 ## 仪表板 开发了仪表板用于可视化: - 欺诈趋势 - 欺诈率 - 商户风险 - 交易分析 - 设备与位置风险(行为分析) - 模型输出 - 欺诈风险类别 - 业务行动 ## 关键洞察 - 设备更换是欺诈的强烈指标。 - 位置变更会显著增加欺诈风险。 - 高 IP 风险评分与欺诈交易相关。 - 跨国交易显示出更高的欺诈概率。 - 与原始交易金额相比,行为特征更能提升欺诈检测效果。 ## 使用技术 - Python - Pandas - NumPy - Matplotlib - Seaborn - Scikit-learn - XGBoost - Power BI - Jupyter Notebook ## 未来改进 - 实时欺诈评分部署 - 设备指纹识别 - 地理位置 distance 特征 - 持续的模型重训练 - 流式欺诈检测 ## 作者 **Rushabh Upadhye** 数据科学毕业项目 ## 致谢 本项目是作为数据科学毕业项目的一部分,使用 **PaySphere Digital Payments** 欺诈检测案例研究开发的。 它展示了从数据验证到业务建议的端到端欺诈分析机器学习工作流。
标签:Apex, NoSQL, 数据科学, 机器学习, 欺诈检测, 资源验证, 逆向工具, 金融科技