Rudhabh-Upadhye-26/FDOT-
GitHub: Rudhabh-Upadhye-26/FDOT-
基于机器学习的端到端在线交易欺诈检测系统,涵盖特征工程、风险评分、模型调优及可视化仪表板,帮助支付业务在欺诈防范与客户体验之间取得平衡。
Stars: 0 | Forks: 0
# 在线交易欺诈检测-
使用机器学习、特征工程、风险评分和仪表板进行端到端的在线交易欺诈检测。
# 在线交易欺诈检测
## 项目概述
本项目为 **PaySphere Digital Payments** 开发了一个端到端的机器学习解决方案,用于检测在线交易欺诈。其目标是在识别欺诈交易的同时,尽量减少客户阻力,并支持实时的欺诈风险评估。
本项目遵循完整的数据科学工作流,从数据验证和探索性分析,到模型开发、阈值调优、欺诈风险评分以及业务建议。
## 业务目标
本项目的主要目标是:
- 检测欺诈性在线交易。
- 减少因欺诈造成的财务损失。
- 提高欺诈分析师的运营效率。
- 在欺诈防范与客户体验之间取得平衡。
- 构建一个具有可解释性且适合面试展示的机器学习解决方案。
## 数据集
本项目使用了一个合成在线交易数据集,其中包含客户、商户、设备、支付和交易相关的信息。
### 数据集摘要
- 总交易量:**50,000**
- 问题类型:**二分类**
- 目标变量:**is_fraud**
## 项目工作流
### 阶段 1 – 数据集理解
- 数据集概述
- 数据类型
- 目标识别
- 类别分布
- 数值型、类别型、日期时间型和 ID 列
### 阶段 2 – 数据验证
- 主键验证
- 重复项检测
- 缺失值分析
- 业务规则验证
- 时间戳验证
- 数据质量评估
### 阶段 3 – 数据清洗
- 缺失值处理
- 移除重复项
- 数据类型修正
- 提升数据一致性
### 阶段 4 – 聚焦欺诈的探索性数据分析
- 欺诈分布
- 交易金额分析
- 客户行为
- 设备分析
- 商户分析
- 位置分析
- 时间分析
- 支付方式分析
### 阶段 5 – 特征工程
创建了针对欺诈的特定特征,包括:
- 交易速度
- 历史平均金额
- 金额偏差分数
- 设备熟悉度分数
- 设备变更标记
- 位置变更标记
- 商户风险分数
- 时段风险
- 星期风险
- 高风险支付方式标记
- 综合风险指数
### 阶段 6 – 预处理
- One-Hot Encoding
- 特征缩放
- 训练集与测试集划分
### 阶段 7 – 类别不平衡处理
- 类别权重策略
### 阶段 8–10 – 模型构建
- Logistic Regression
- Random Forest
- XGBoost
### 阶段 11 – 模型比较
模型评估使用了以下指标:
- Accuracy
- Precision
- Recall
- F1 Score
- ROC-AUC
- PR-AUC
### 阶段 12 – 阈值调优
评估了多个概率阈值,以平衡欺诈检测和客户体验。
### 阶段 13 – 最终模型分析
- 混淆矩阵
- 特征重要性
- 欺诈驱动因素
### 阶段 14 – 欺诈风险评分
交易被划分为以下类别:
- 低风险
- 中风险
- 高风险
- 极高风险
### 阶段 15 – 业务行动
基于风险的运营决策:
- 低风险 → 批准
- 中风险 → OTP 验证
- 高风险 → 人工审核
- 极高风险 → 强制拦截
### 阶段 16 – 业务建议
为以下团队提供了建议:
- 欺诈风险团队
- 支付工程团队
- 客户体验团队
- 数据科学团队
## 机器学习模型
评估了以下监督学习模型:
1. Logistic Regression
2. Random Forest
3. XGBoost
## 最终模型
**选定模型:** Logistic Regression
最终模型是基于面向业务的评估指标而非整体准确率选出的。
优先指标:
1. Recall
2. PR-AUC
3. F1 Score
进行了阈值调优以优化欺诈检测性能。
## 仪表板
开发了仪表板用于可视化:
- 欺诈趋势
- 欺诈率
- 商户风险
- 交易分析
- 设备与位置风险(行为分析)
- 模型输出
- 欺诈风险类别
- 业务行动
## 关键洞察
- 设备更换是欺诈的强烈指标。
- 位置变更会显著增加欺诈风险。
- 高 IP 风险评分与欺诈交易相关。
- 跨国交易显示出更高的欺诈概率。
- 与原始交易金额相比,行为特征更能提升欺诈检测效果。
## 使用技术
- Python
- Pandas
- NumPy
- Matplotlib
- Seaborn
- Scikit-learn
- XGBoost
- Power BI
- Jupyter Notebook
## 未来改进
- 实时欺诈评分部署
- 设备指纹识别
- 地理位置 distance 特征
- 持续的模型重训练
- 流式欺诈检测
## 作者
**Rushabh Upadhye**
数据科学毕业项目
## 致谢
本项目是作为数据科学毕业项目的一部分,使用 **PaySphere Digital Payments** 欺诈检测案例研究开发的。
它展示了从数据验证到业务建议的端到端欺诈分析机器学习工作流。
标签:Apex, NoSQL, 数据科学, 机器学习, 欺诈检测, 资源验证, 逆向工具, 金融科技