Adnanhrc/Fraud-Detection-Risk-Analysis
GitHub: Adnanhrc/Fraud-Detection-Risk-Analysis
基于逻辑回归的信用卡欺诈检测项目,结合规则引擎与机器学习方法处理高度不平衡的金融交易数据,并提供Power BI可视化仪表板。
Stars: 0 | Forks: 0
# 🚀 📊 欺诈检测与风险分析
## 📌 概述
本项目侧重于使用**基于规则的逻辑和机器学习技术相结合**的方法来检测欺诈性金融交易。
它模拟了一个真实的欺诈分析用例,类似于咨询公司和金融机构所处理的场景,所使用的是一个高度**不平衡的数据集(欺诈率约 0.17%)**。
本项目演示了如何从**基于规则的基础检测 → 机器学习模型 → 通过仪表板获取业务洞察**进行演进。
## 🚀 主要功能
* 分析 **28 万笔以上的金融交易**
* 处理高度不平衡的欺诈数据集
* 基于规则的欺诈检测系统
* 机器学习模型 (Logistic Regression)
* 用于异常检测的特征工程
* 使用真实世界指标进行模型评估
* 用于业务洞察的交互式 Power BI 仪表板
## 📊 数据集信息
* 📦 总交易数:**284,807**
* 🚨 欺诈案例:**492 (约 0.17%)**
* 📍 来源:Kaggle 信用卡欺诈数据集
⚠️ 由于大小限制,未包含数据集
👉 下载链接:https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud
## 🎯 业务目标
本项目帮助金融机构:
* 识别可疑的交易模式
* 尽早检测欺诈活动
* 减少经济损失
* 改进欺诈监控系统
* 支持数据驱动的风险策略
## 🛠️ 工具与技术
* Python (Pandas, NumPy)
* Scikit-learn (Logistic Regression)
* Power BI (仪表板)
* VS Code
* Git & GitHub
## ⚙️ 特征工程
为了模拟真实的欺诈检测逻辑,创建了以下特征:
* 🔹 高额交易标志 (前 5% 的交易)
* 🔹 交易小时 (基于时间的行为)
* 🔹 夜间交易指标 (0-6 AM 风险窗口)
* 🔹 交易金额的 Z-score (异常检测)
* 🔹 极端交易标志 (异常值)
## 🔍 基于规则的模型
实施了一个业务驱动的风险评分系统:
* 高交易金额 → 高风险
* 夜间交易 → 中等风险
* 极端值 → 强烈的异常信号
📊 结果:
* 检测到的欺诈案例有限
* 大量的误报
* 凸显了静态规则系统的局限性
## 🤖 机器学习模型
* 使用模型:**Logistic Regression**
⚙️ 主要改进:
* 应用 `class_weight = 'balanced'` 来处理类别不平衡
📊 结果:
* 欺诈检测召回率:**约 34%**
* 相比基线(约 0%)有显著提升
* 权衡:增加了误报率
## 📈 模型评估洞察
* 在不平衡数据集中,准确率具有误导性
* 召回率是欺诈检测最关键的指标
* 精确率与召回率的权衡是不可避免的
* 该模型反映了真实世界的欺诈检测挑战
## 📊 Power BI 仪表板
### 🔹 概览页
* 总交易数
* 欺诈数量
* 欺诈百分比
### 🔹 欺诈分析
* 高金额与欺诈的相关性
* 基于时间的欺诈模式
* 夜间交易风险分析
### 🔹 模型性能
* 检测到与遗漏的欺诈
* 混淆矩阵可视化
## 📸 仪表板预览

## 📥 如何运行本项目
### 1️⃣ 数据准备
* 从 Kaggle 下载数据集
* 加载到 Python 环境中
### 2️⃣ 模型构建
* 执行特征工程
* 训练 Logistic Regression 模型
* 评估性能指标
### 3️⃣ Power BI 仪表板
* 加载处理后的数据
* 创建可视化图表和 KPI
* 分析欺诈模式
## 📈 业务价值
本项目帮助组织:
* 检测高风险交易
* 改进欺诈监控系统
* 了解基于规则的检测的局限性
* 实施基于机器学习的欺诈检测策略
## 💡 核心要点
* 处理不平衡数据集至关重要
* 仅靠准确率不是一个可靠的指标
* 特征工程发挥着重要作用
* 真实世界的模型需要进行权衡
## 🔮 未来改进
* 应用高级模型 (Random Forest, XGBoost)
* 使用 SMOTE 处理类别不平衡
* 优化模型阈值
* 改善精确率与召回率的平衡
* 部署实时欺诈检测 pipeline
## 📬 联系方式
Adnan
LinkedIn: https://www.linkedin.com/in/adnanhrc/
Email: mohammadnan88@gmail.com
## 💡 为什么这个项目很重要
* 演示了**端到端的数据科学工作流 (EDA → 特征工程 → ML → BI)**
* 解决了**真实世界的金融欺诈问题**
* 处理了**高度不平衡的数据集**
* 是面向**数据分析师、风险分析师和金融科技职位**的强有力项目
⭐ 如果您觉得这个项目有用,请考虑给它点个 Star!
标签:Apex, FinTech, Kaggle数据集, NumPy, Power BI, Python, Scikit-learn, TCP/UDP协议, Z-score, 不平衡数据处理, 云计算, 交易安全, 代码示例, 信用卡欺诈, 反欺诈系统, 商业分析, 商业智能, 大数据分析, 异常检测, 数据分析, 数据科学, 无后门, 机器学习, 欺诈检测, 特征工程, 规则引擎, 资源验证, 逆向工具, 逻辑回归, 金融数据分析, 金融科技, 风控模型, 风控策略, 风险分析