Adnanhrc/Fraud-Detection-Risk-Analysis

GitHub: Adnanhrc/Fraud-Detection-Risk-Analysis

基于逻辑回归的信用卡欺诈检测项目,结合规则引擎与机器学习方法处理高度不平衡的金融交易数据,并提供Power BI可视化仪表板。

Stars: 0 | Forks: 0

# 🚀 📊 欺诈检测与风险分析 ## 📌 概述 本项目侧重于使用**基于规则的逻辑和机器学习技术相结合**的方法来检测欺诈性金融交易。 它模拟了一个真实的欺诈分析用例,类似于咨询公司和金融机构所处理的场景,所使用的是一个高度**不平衡的数据集(欺诈率约 0.17%)**。 本项目演示了如何从**基于规则的基础检测 → 机器学习模型 → 通过仪表板获取业务洞察**进行演进。 ## 🚀 主要功能 * 分析 **28 万笔以上的金融交易** * 处理高度不平衡的欺诈数据集 * 基于规则的欺诈检测系统 * 机器学习模型 (Logistic Regression) * 用于异常检测的特征工程 * 使用真实世界指标进行模型评估 * 用于业务洞察的交互式 Power BI 仪表板 ## 📊 数据集信息 * 📦 总交易数:**284,807** * 🚨 欺诈案例:**492 (约 0.17%)** * 📍 来源:Kaggle 信用卡欺诈数据集 ⚠️ 由于大小限制,未包含数据集 👉 下载链接:https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud ## 🎯 业务目标 本项目帮助金融机构: * 识别可疑的交易模式 * 尽早检测欺诈活动 * 减少经济损失 * 改进欺诈监控系统 * 支持数据驱动的风险策略 ## 🛠️ 工具与技术 * Python (Pandas, NumPy) * Scikit-learn (Logistic Regression) * Power BI (仪表板) * VS Code * Git & GitHub ## ⚙️ 特征工程 为了模拟真实的欺诈检测逻辑,创建了以下特征: * 🔹 高额交易标志 (前 5% 的交易) * 🔹 交易小时 (基于时间的行为) * 🔹 夜间交易指标 (0-6 AM 风险窗口) * 🔹 交易金额的 Z-score (异常检测) * 🔹 极端交易标志 (异常值) ## 🔍 基于规则的模型 实施了一个业务驱动的风险评分系统: * 高交易金额 → 高风险 * 夜间交易 → 中等风险 * 极端值 → 强烈的异常信号 📊 结果: * 检测到的欺诈案例有限 * 大量的误报 * 凸显了静态规则系统的局限性 ## 🤖 机器学习模型 * 使用模型:**Logistic Regression** ⚙️ 主要改进: * 应用 `class_weight = 'balanced'` 来处理类别不平衡 📊 结果: * 欺诈检测召回率:**约 34%** * 相比基线(约 0%)有显著提升 * 权衡:增加了误报率 ## 📈 模型评估洞察 * 在不平衡数据集中,准确率具有误导性 * 召回率是欺诈检测最关键的指标 * 精确率与召回率的权衡是不可避免的 * 该模型反映了真实世界的欺诈检测挑战 ## 📊 Power BI 仪表板 ### 🔹 概览页 * 总交易数 * 欺诈数量 * 欺诈百分比 ### 🔹 欺诈分析 * 高金额与欺诈的相关性 * 基于时间的欺诈模式 * 夜间交易风险分析 ### 🔹 模型性能 * 检测到与遗漏的欺诈 * 混淆矩阵可视化 ## 📸 仪表板预览 ![仪表板](https://raw.githubusercontent.com/Adnanhrc/Fraud-Detection-Risk-Analysis/main/images/fraud_dashboard.png) ## 📥 如何运行本项目 ### 1️⃣ 数据准备 * 从 Kaggle 下载数据集 * 加载到 Python 环境中 ### 2️⃣ 模型构建 * 执行特征工程 * 训练 Logistic Regression 模型 * 评估性能指标 ### 3️⃣ Power BI 仪表板 * 加载处理后的数据 * 创建可视化图表和 KPI * 分析欺诈模式 ## 📈 业务价值 本项目帮助组织: * 检测高风险交易 * 改进欺诈监控系统 * 了解基于规则的检测的局限性 * 实施基于机器学习的欺诈检测策略 ## 💡 核心要点 * 处理不平衡数据集至关重要 * 仅靠准确率不是一个可靠的指标 * 特征工程发挥着重要作用 * 真实世界的模型需要进行权衡 ## 🔮 未来改进 * 应用高级模型 (Random Forest, XGBoost) * 使用 SMOTE 处理类别不平衡 * 优化模型阈值 * 改善精确率与召回率的平衡 * 部署实时欺诈检测 pipeline ## 📬 联系方式 Adnan LinkedIn: https://www.linkedin.com/in/adnanhrc/ Email: mohammadnan88@gmail.com ## 💡 为什么这个项目很重要 * 演示了**端到端的数据科学工作流 (EDA → 特征工程 → ML → BI)** * 解决了**真实世界的金融欺诈问题** * 处理了**高度不平衡的数据集** * 是面向**数据分析师、风险分析师和金融科技职位**的强有力项目 ⭐ 如果您觉得这个项目有用,请考虑给它点个 Star!
标签:Apex, FinTech, Kaggle数据集, NumPy, Power BI, Python, Scikit-learn, TCP/UDP协议, Z-score, 不平衡数据处理, 云计算, 交易安全, 代码示例, 信用卡欺诈, 反欺诈系统, 商业分析, 商业智能, 大数据分析, 异常检测, 数据分析, 数据科学, 无后门, 机器学习, 欺诈检测, 特征工程, 规则引擎, 资源验证, 逆向工具, 逻辑回归, 金融数据分析, 金融科技, 风控模型, 风控策略, 风险分析