diogoamaralse/Engineering-AI-Frameworks-for-Real-Time-Financial-Fraud-Detection-A-Systematic-Review

GitHub: diogoamaralse/Engineering-AI-Frameworks-for-Real-Time-Financial-Fraud-Detection-A-Systematic-Review

这是一个系统性综述,系统回顾了2021-2025年用于实时金融欺诈检测的AI和机器学习方法,旨在提供结构化分类并指出未来研究方向。

Stars: 1 | Forks: 0

# 面向实时金融欺诈检测的AI工程框架:系统性综述 [![许可协议: CC BY 4.0](https://img.shields.io/badge/License-CC%20BY%204.0-lightgrey.svg)](https://creativecommons.org/licenses/by/4.0/) [![PRISMA 2020](https://img.shields.io/badge/Methodology-PRISMA%202020-blue)]() [![已审查研究](https://img.shields.io/badge/Studies%20Reviewed-99-green)]() [![研究时间段](https://img.shields.io/badge/Period-2021--2025-orange)]() ## 概述 本仓库包含一篇**符合PRISMA 2020指南的系统性综述**的手稿及补充材料,该综述旨在审视机器学习与人工智能在金融欺诈检测中的应用。综述涵盖了**99篇同行评审研究**,发表时间跨度为**2021年1月至2025年10月**,涉及基于卡的支付、网上银行、电子商务、区块链交易以及反洗钱领域。 本研究构建了一个**结构化的技术分类体系**,批判性地分析了评估方法与部署挑战,并为下一代可部署的欺诈检测系统勾勒出研究议程。 ## 核心亮点 - **全面、符合PRISMA指南的系统性综述**:总结了2021–2025年间用于金融欺诈检测的AI/ML框架,从Web of Science、ScienceDirect和SpringerLink的1,124条初始记录中筛选并综合了99项主要研究。 - **结构化分类体系**:将当代方法在交易、实体和网络分析层面,划分为监督学习、无监督学习、深度学习、基于图的方法、联邦学习和可解释AI。 - **对跨领域技术挑战的批判性分析**:包括极端类别不平衡、概念漂移、对抗鲁棒性以及对监管对齐透明度日益增长的需求。 - **识别技术范式转移**:从传统的树集成模型,转向Transformer、图神经网络和隐私保护联邦学习等先进架构。 ## 研究问题 | ID | 研究问题 | |----|----------| | **RQ1** | 自2021年以来,用于金融交易系统欺诈检测的机器学习方法有哪些类别?它们如何在不同数据类型和系统架构中部署? | | **RQ2** | 这些方法在预测准确性、区分度和操作实用性方面表现如何?报告的结果对于数据集选择、类别不平衡处理和防止数据泄露等方法学选择的稳健性如何? | | **RQ3** | 哪些方法、技术和监管挑战尚未得到充分解决?为构建可扩展、隐私保护、可解释且对抗鲁棒的欺诈检测系统,出现了哪些未来研究方向? | ## 研究方法 本综述遵循**PRISMA 2020**指南,并拥有预注册的协议。 ### 检索策略 查询了三个文献数据库: - **Web of Science** — `("Fraud Detection") AND ("Artificial Intelligence" OR "Machine Learning") AND ("Challenges" OR "Techniques")` - **ScienceDirect** — `("Finance" AND "Fraud Detection") AND ("Artificial Intelligence" OR "Machine Learning") AND ("Challenges" OR "Techniques")` - **SpringerLink** — 与ScienceDirect相同 筛选条件:2021–2025年,英文,同行评审期刊文章和完整会议论文。 ### 筛选过程 | 阶段 | 数量 | |------|------| | 识别记录 | 1,124 | | 移除重复 | 24 | | 标题/摘要筛选 — 纳入 | 397 | | 标题/摘要筛选 — 排除 | 703 | | 全文评审 | 397 | | 全文排除 | 298 | | **最终纳入研究** | **99** | 筛选和去重工作使用**Zotero**和**Rayyan**进行管理。 ### 纳入标准 (PEO框架) - **人群/问题:** 金融交易系统(卡支付、在线/移动银行、电子商务、区块链)。 - **暴露/干预:** 用于欺诈检测的ML/AI方法——监督、无监督、半监督、深度学习、基于图的、联邦学习、可解释AI以及混合/集成方法。 - **结果:** 至少一项标准的量化性能指标(准确率、精确率、召回率、F1、AUC-ROC、PR-AUC、MCC、延迟等),并提供充分的方法学细节。 ## AI方法分类体系 该分类体系沿着三个轴线组织:**问题建模**、**数据模态**和**模型家族**。 ### 分析层级 | 层级 | 描述 | 典型方法 | |------|------|----------| | 交易层级 | 将每笔交易分类为欺诈或合法 | XGBoost, LightGBM, LSTM, CNN | | 实体/账户层级 | 为账户、客户或商户分配风险分数 | VAEs, 孤立森林, GNN | | 网络层级 | 检测欺诈团伙、合谋网络、洗钱链条 | GCN, GraphSAGE, GAT | ### 操作模式 - **批量/准实时评分** — 定期重训练,离线评估。 - **真正实时/流处理** — 在卡支付和网上银行系统中实现亚50毫秒决策;需要轻量级架构和特征管道。 ### 模型家族 | 家族 | 代表性模型 | 典型AUC-ROC | 备注 | |------|------------|-------------|------| | 树集成模型 | XGBoost, LightGBM, CatBoost | 0.96 – 0.99 | 表格欺诈数据的事实标准 | | 深度学习 (表格/序列) | DCNN, LSTM, GRU, Transformer | 0.95 – 0.99 | 在序列行为数据上表现强劲 | | 基于图 | GCN, GraphSAGE, GAT, MetaFraud-GNN | 0.95 – 0.99 | 最适合协同/网络欺诈 | | 联邦与隐私保护 | FedGAT-DCNN, FL-GNN | 0.97 – 0.999 | 无需原始数据共享的跨机构训练 | | 无监督/异常检测 | 自编码器, VAE, 孤立森林, GAN | — | 当标签稀缺或延迟时有效 | | 可解释AI | SHAP, LIME (事后解释层) | — | 跨领域;应用于其他模型之上 | | 元启发式优化 | GA, PSO, 差分进化 | — | 用于特征选择和超参数调优 | ## 主要发现 ### 按领域划分的性能 | 领域 | 顶级模型 | 平均AUC-ROC | 主要数据集 | |------|----------|-------------|------------| | 信用卡 | XGBoost / LightGBM | 0.96 – 0.99 | European cardholder (Kaggle) | | 区块链 | GNN / Federated | 0.97 – 0.99 | Elliptic / Ethereum | | 网上银行 | CNN-LSTM | 0.95 – 0.98 | European (Kaggle-like) / Taiwan | ### 评估指标使用情况 - **准确率**和**AUC-ROC**占主导地位——但在极端类别不平衡下可能产生误导。 - **PR-AUC**信息量更大,但相对于AUC-ROC报告不足。 - 尽管**延迟和吞吐量**基准测试在实时系统中至关重要,但基本缺失。 - **MCC**和成本敏感指标仅出现在少数研究中。 ### 时间趋势 (2021–2025) - 从传统ML逐渐转向**深度学习和基于图的架构**。 - **联邦学习**自2023年起日益受到重视。 - **可解释AI**从边缘话题转变为研究核心主题。 - 到2024–2025年,更多研究开始报告PR-AUC并承认概念漂移。 ## 跨领域挑战 ### 1. 极端类别不平衡 欺诈数据集的不平衡比率可能达到数千比一。广泛采用的对策包括SMOTE变体、用于合成过采样的GAN/VAE、成本敏感学习和Focal Loss。有证据表明,激进的重采样会扭曲可解释AI的特征归因。 ### 2. 概念漂移 欺诈模式持续演变。大多数研究使用静态的训练/测试集划分,忽略了时间动态性,导致性能评估过于乐观。在线学习、滑动窗口和定期重训练方案被提出,但很少进行系统性评估。 ### 3. 对抗鲁棒性 欺诈者通过规避和数据投毒攻击来适应检测机制。对抗鲁棒性很少被评估;欺诈检测领域缺乏该维度的标准基准。 ### 4. 可解释性与治理 SHAP和LIME是最常见的事后解释技术。局部解释用于解释单个警报;全局解释支持模型治理和监管审计。不平衡对策与解释稳定性之间的交互作用仍然是一个开放的研究问题。 ### 5. 隐私保护与联邦学习 联邦架构能够实现无需共享原始数据的跨机构训练。关键的未决挑战包括处理非独立同分布的数据分布、保护模型更新免受投毒攻击,以及获得监管认可。 ## 仓库结构 ``` . ├── main.tex # Main LaTeX manuscript ├── main.bib # BibTeX reference database ├── figs/ │ └── prisma.png # PRISMA 2020 flow diagram ├── supplementary/ # Search strategies, data extraction form, protocol └── README.md ``` ## 引用 如果您使用本工作,请引用: ``` @article{amaral2025engineering, title = {Engineering {AI} Frameworks for Real-Time Financial Fraud Detection: A Systematic Review}, author = {Amaral, Diogo and Faria, Luiz}, journal = {(under review)}, year = {2025}, note = {ISEP, Porto, Portugal} } ``` ## 作者与贡献 | 作者 | 所属机构 | 贡献 | |------|----------|------| | **Diogo Amaral** (通讯作者) | ISEP, Porto, Portugal | 概念化, 方法学, 软件, 形式分析, 调查研究, 写作 — 初稿 | | **Luiz Faria** | ISEP, Porto, Portugal | 监督, 概念化, 写作 — 审阅与编辑 | ## 许可协议 本作品依据 [CC BY 4.0](https://creativecommons.org/licenses/by/4.0/) 许可。您可以出于任何目的自由分享和改编材料,但需给出适当的署名。
标签:AI框架, Apex, 交易监控, 人工智能, 区块链安全, 卡支付欺诈, 反欺诈系统, 反洗钱, 可解释AI, 图神经网络, 在线银行安全, 实时检测, 对抗鲁棒性, 数据驱动决策, 机器学习, 概念漂移, 欺诈检测算法, 深度学习, 用户模式Hook绕过, 电子商务安全, 监管合规, 类不平衡处理, 系统性综述, 网络安全, 网络安全, 联邦学习, 金融欺诈检测, 金融科技, 隐私保护, 隐私保护