datawithsayannaha/Fraud-Transaction-Detection-Risk-Intelligence-System

GitHub: datawithsayannaha/Fraud-Transaction-Detection-Risk-Intelligence-System

一个端到端的欺诈检测与风险智能系统,利用机器学习分析金融交易数据以识别欺诈行为。

Stars: 0 | Forks: 0

# 🕵️ 欺诈交易检测与风险智能系统 ## 📌 项目概述 本项目利用交易级和身份级金融数据,构建了一个完整的欺诈检测与风险智能系统。 项目的目标是分析欺诈性交易行为、识别可疑交易模式、构建欺诈相关特征、应用异常检测技术,并建立用于欺诈预测的机器学习模型。 本项目使用了现实世界中的 IEEE-CIS 欺诈检测数据集,其中包含大规模的金融交易和身份信息。 ![Python](https://img.shields.io/badge/Language-Python-green?style=for-the-badge&logo=python) ![Status](https://img.shields.io/badge/Project-Completed-success?style=for-the-badge) # 🎯 项目目标 - 检测欺诈性金融交易 - 分析交易与身份行为 - 构建欺诈相关风险特征 - 处理高度不平衡的欺诈数据 - 比较多种机器学习模型 - 应用异常检测技术 - 生成欺诈概率与风险情报 - 创建交易级风险分层 # 🛠️ 使用技术 ## 📚 库 - pandas - numpy - matplotlib - seaborn - scikit-learn # 📂 数据集信息 本项目使用 IEEE-CIS 欺诈检测数据集,包含: - 金融交易数据 - 交易金额信息 - 银行卡相关特征 - 电子邮件域名信息 - 地址与距离特征 - 设备与身份信息 - 行为交易模式 ## 📁 数据集文件 本项目使用: - train_transaction.csv - train_identity.csv ### 🎯 目标变量 | 值 | 含义 | |---|---| | 0 | 正常交易 | | 1 | 欺诈交易 | # 🔄 项目流程 **原始交易数据 → 数据清洗 → 欺诈 EDA → 特征工程 → 风险特征创建 → 数据预处理 → 机器学习 → 模型评估 → 异常检测 → 风险智能 → 业务洞察** # 🧹 数据清洗与预处理 项目包含: - 缺失值分析 - 重复值检查 - 交易与身份数据合并 - 高缺失率列移除 - 标签编码 - 空值处理 - 对数变换 - 特征缩放准备 # 📊 探索性数据分析 项目包含以下分析: - 欺诈分布分析 - 交易金额分析 - 基于时间的欺诈分析 - 产品欺诈分析 - 银行卡欺诈分析 - 电子邮件域名欺诈分析 - 设备欺诈分析 - 身份缺失模式分析 - 风险模式分析 # 📷 项目图表 ## 📌 欺诈与非欺诈交易计数 ![欺诈分布](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/d06a9d5288042829.png) ## 📌 按欺诈状态对比的交易金额 ![交易金额对比](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/47a93ed807042830.png) ## 📌 每小时欺诈率 ![每小时欺诈率](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/5853556164042830.png) ## 📌 按设备分类的欺诈率 ![设备欺诈率](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/791fec7c15042831.png) ## 📌 最重要的欺诈检测特征 ![特征重要性](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/fc2517fcc2042832.png) ## 📌 随机森林 ROC 曲线 ![ROC 曲线](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/c20e634ea3042833.png) # ⚙️ 特征工程 创建了以欺诈为中心的特征,例如: - 交易金额对数特征 - 金额分桶特征 - 高金额标志 - 交易小时特征 - 夜间交易特征 - 银行卡频率特征 - 银行卡组合特征 - 电子邮件频率特征 - 电子邮件匹配特征 - 距离缺失标志 - 设备清理特征 - 身份缺失计数 - 自定义风险评分特征 # 🤖 机器学习模型 ## 使用的模型 - 逻辑回归 - 随机森林 - Isolation Forest # ⚙️ 数据预处理 预处理流程包括: - 训练-验证集拆分 - 缺失值处理 - 标签编码 - 特征选择 - 高缺失率列移除 - 数值与分类数据处理 # 📈 模型性能 | 模型 | 精确率 | 召回率 | F1 分数 | ROC-AUC | |---|---|---|---|---| | 逻辑回归 | 0.1030 | 0.5684 | 0.1744 | 0.7328 | | 随机森林 | 0.2312 | 0.7433 | 0.3527 | 0.9066 | # 🏆 最佳模型 ## 随机森林 ### 最终性能 | 指标 | 分数 | |---|---| | ROC-AUC | 0.9066 | | 召回率 | 74.33% | # 🔥 关键业务洞察 - 欺诈交易高度不平衡,仅占总交易的很小一部分。 - 交易金额模式在不同金额组中显示出不同的欺诈行为。 - 欺诈活动在不同交易小时中显著变化。 - 产品类别显示出不同的欺诈风险模式。 - 银行卡相关特征成为强欺诈指标。 - 电子邮件域名行为提供了有用的欺诈情报信号。 - 移动设备相比桌面设备显示出更高的欺诈活动。 - 身份和距离信息的缺失成为重要的欺诈指标。 - 自定义风险评分显著提升了欺诈检测能力。 - 随机森林在欺诈检测性能上远优于逻辑回归。 - 阈值调整有助于平衡欺诈检测与误报。 - Isolation Forest 成功检测出异常的交易行为模式。 # 🎯 风险智能系统 本项目生成: - 欺诈概率预测 - 风险分层 - 交易级欺诈情报 交易被划分为: - 低风险 - 中风险 - 高风险 # 🎯 最终输出 系统生成: - 欺诈概率分数 - 基于风险的交易分层 - 欺诈情报输出数据集 - 清理后的欺诈就绪数据集 # 👨‍💻 关于我 ## Sayan Naha 📧 **邮箱:** snsayan2012@gmail.com 🔗 **LinkedIn:** [Sayan Naha](https://www.linkedin.com/in/sayan-naha/)
标签:Apex, IEEE-CIS数据集, Python编程, 不平衡数据处理, 交易数据分析, 异常检测, 探索性数据分析, 数据预处理, 机器学习, 模型评估, 欺诈概率生成, 欺诈模式识别, 欺诈风险分析, 特征工程, 身份数据, 逆向工具, 金融数据挖掘, 金融欺诈检测, 风险分段, 风险智能系统, 风险特征工程