aloktp/IEEE-CIS-Fraud-Detection-Analysis

GitHub: aloktp/IEEE-CIS-Fraud-Detection-Analysis

基于 IEEE-CIS 数据集构建的端到端欺诈检测平台，覆盖数据工程、特征建模、成本优化与业务可视化。

Stars: 0 | Forks: 0

## 🚧 待完成的工作 - 实现图数据库集成（Neo4j）。 - 使用图算法（PageRank、社区检测）识别欺诈团伙。 - 可视化交易网络用于异常检测。 # 企业级欺诈检测与风险优化平台 ## 案例研究一个金融平台如何： * 追踪高交易量下的欺诈损失暴露总额？ * 识别高风险行为异常和速度峰值？ * 优化模型决策阈值以最小化净业务成本？ * 为欺诈调查员提供透明、可解释的风险向量？ ## 关于数据集（IEEE-CIS 欺诈检测）本项目使用行业标准的 IEEE-CIS 数据集，包含真实世界的、高维度的电子商务交易日志。 * 约 591,000 笔交易 * 身份与设备网络属性 * 卡片与聚合行为变量 * 严重的类别不平衡（约 3.5% 欺诈基线） ### 数据覆盖范围： * 交易金额、时间及产品类型 * 设备类别、浏览器版本及操作系统组 * 卡片资料特征与关系元数据 ## 项目架构 Snowflake（原始数据 -> 中间层） ↓ dbt（特征工程 + 质量测试） ↓ 机器学习（XGBoost 与 LightGBM 生产核心） ↓ Power BI 仪表板（运营分类套件） ![Snowflake 截图 1](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/d56a32aaa1171618.jpg) ![Snowflake 截图 2](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/a629fb2a2a171625.jpg) ## 技术栈 * **Snowflake:** 云数据仓库与计算 * **dbt（数据构建工具）：** DAG 转换、建模与测试 * **Python:** Scikit-learn、XGBoost、LightGBM、SHAP、Matplotlib * **Power BI:** 多页面交互式管理与取证报告套件 ## 仪表板（业务优先方法） ### 1️⃣ 欺诈概览（管理驾驶舱） ![第1页：欺诈概览](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/a1c4a41b31171631.jpg) **关键观察：** * 总损失暴露额为 **308 万美元**，处理了 59.1 万笔交易 * 投资组合基准欺诈率为 **3.50%** * 小时级风险分析显示在第7小时出现运营欺诈高峰（**10.61%**） * 电子邮件风险分析标记 **Outlook** 域为主要向量，占比 **9.74%** * 产品脆弱性图谱显示 **产品类型 C** 为高风险异常值（**11.69%**） ### 2️⃣ 运营风险分类（经理仪表板） ![第2页：运营分类](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/bdbc1b25af171637.jpg) **关键观察：** * 追踪与自动化脚本模式相关的非高峰小时交易量（**21.72%**） * 标记浏览器风险，显示旧版环境存在极端脆弱性（**Opera 高达 31.63%**） * 精确指出高欺诈与旧版、廉价 Android 设备的高度相关性 * 自动化的 **关键风险队列** 隔离了 2,845 个案例，欺诈密度达 **61.86%** * 对最高层级启用即时自动阻断规则，节省分析师开销 ### 3️⃣ 机器学习模型评估与监控（数据科学控制台） ![第3页：模型评估](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/ea4320fa63171643.jpg) **关键观察：** * 提供精确率、召回率和误报交互的实时模拟 * 使用优化的业务效用指标替代默认的 0.50 阈值 * 识别出决策阈值在 **0.30 到 0.40 之间的“成本谷”** * 最小化漏单欺诈和误拒用户摩擦的合并成本 * 将总净业务损失从 **71 万美元降至最低 42 万美元** ### 4️⃣ SHAP 取证调查（分析师工作区） ![第4页：SHAP 调查](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/6fefe04482171649.jpg) **关键观察：** * 通过跨页钻取操作实现单笔交易隔离 * 使用资产元数据权重生成局部行为异常图表 * 将复杂的模型参数转化为可理解的根因指标 * 突出显示特定风险驱动因素（例如速度峰值、极端数值偏差） * 消除“黑箱”摩擦，加快运营队列清理速度 ## 机器学习 — 欺诈模型 ### 使用的模型 * LightGBM（基线比较） * XGBoost（最终生产模型） ### 模型性能指标 ![模型性能](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/7294e50421171655.png) * **XGBoost 性能：** ROC-AUC：**0.9117** | PR-AUC：**0.5173** * **LightGBM 性能：** ROC-AUC：**0.9114** | PR-AUC：**0.5190** * 设计用于有效处理海量数据维度和原生缺失值。 ### 成本优化曲线 ![阈值优化](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/6af21b95f2171701.png) * 映射整个概率连续区间的财务影响 * 证明与平衡财务成本权重相比，追踪原始准确率无法实现业务目标 ### 全局特征重要性（SHAP） ![全局 SHAP 汇总](https://raw.githubusercontent.com/aloktp/IEEE-CIS-Fraud-Detection-Analysis/main/shots/shap_summary.png) **全局欺诈的关键驱动因素：** * 基于计数的网络属性（`C5`、`C13`、`C1`） * 目标时间间隔与交易速度跨度（`D2`） * 工程化聚合（卡片消费速度、比率和数值对数尺度） ## 数据血缘（DBT DAG） ### 完整管道血缘 ![dbt DAG](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/f175eba4f2171712.jpg) ### 数据建模方法 * **Staging Layer（临时层）：** 初始摄入、列类型转换和原始标志转换 * **Intermediate Layer（中间层）：** 身份到交易键匹配与时间跟踪 * **Marts Layer（数据集市层，`FEAT_FINAL`）：** 物化滚动窗口计数和速度比率用于机器学习训练 * **数据质量保障：** 自动化的模式测试，包括唯一性约束和空值注入阻止 ## 主要洞察 ### 运营 * 标记关键欺诈窗口（第7小时峰值），动态调整审核团队容量。 * 识别清晰的网络和设备漏洞以拦截脚本攻击。 ### 风险管理 * 隔离一小部分关键账户，这些账户驱动超过60%的经确认欺诈暴露。 * 实施精确的自动阻断参数，而不干扰正常用户生命周期。 ### 成本节约 * 调整决策阈值，将净运营暴露减少 **29 万美元**。 * 系统性地平衡退款费用与用户摩擦。 ### 决策制定 * 将数据工程管道与实时机器学习跟踪和可视化业务层集成。 ## 本项目展示的内容 1. 抽象的模型准确率不等于业务价值；优化财务成本曲线才是节省资金的关键。 2. 行为速度指标（账户活动的快慢）远优于原始交易值的预测能力。 3. 机器学习模型必须在分析师层面保持可解释性，才能在实时生产环境中成功。 ## 应采取的措施（业务行动） * 直接对模型得分在 0.92+ 区间的交易部署自动阻断。 * 更新路由规则，对来自高风险旧版操作系统/浏览器集群的交易提示多因素认证（MFA）。 * 永久重新校准平台的分类阈值为 **0.34**，以保持业务损失的绝对最低水平。 * 使用第4页的取证追踪工具审计复杂的欺诈边缘案例并满足合规报告要求。 ## 最终成果本项目展示了端到端云平台如何： * 将原始交易日志文件转化为可信数据产品 * 通过 dbt 和 Snowflake 构建健壮的特征管道 * 运行生产级机器学习模型以最大化效用 * 将直观、可操作的洞察直接交付给业务运营人员 ## 如何运行 1. 在 Snowflake 中执行源设置脚本以初始化原始表。 2. 运行 dbt 工程仓库： dbt run dbt test 运行机器学习模型脚本（best_model.pkl）以捕获特征权重。打开 Power BI 桌面版，调整源字符串以匹配你的数据仓库端点，然后刷新你的表。作者 Alok T P

标签：Apex, dbt, IEEE-CIS, LightGBM, Neo4j, Power BI, SHAP, Snowflake, XGBoost, 交易数据, 可解释AI, 商业智能, 图算法, 异常检测, 数据仓库, 数据管道, 机器学习, 欺诈检测, 特征工程, 端到端方案, 软件工程, 逆向工具, 金融科技, 风控