Gurmancheema/End-To-End-Fraud-Detection-Engine
GitHub: Gurmancheema/End-To-End-Fraud-Detection-Engine
一个端到端的数据平台项目,用于模拟金融生态并检测欺诈交易,解决传统批处理滞后问题。
Stars: 0 | Forks: 0
# 实时欺诈检测数据平台
## 📌 项目概述
本项目旨在设计并实现一个行业风格的端到端数据平台,用于检测金融欺诈交易。
系统模拟真实的交易数据,并通过可扩展的数据架构使用现代数据工程和分析工具对其进行处理。
主要目标包括:
- 构建健壮的数据摄取管道
- 应用分层数据架构(青铜、白银、黄金)
- 支持分析和机器学习准备
- 遵循数据工程的最佳实践
## 🎯 问题陈述
金融欺诈每年造成数十亿美元的损失。传统批处理系统往往在欺诈发生后才能检测到。
本项目模拟一个涉及以下方面的金融生态系统:
- 客户
- 商户
- 交易
我们的目标是:
- 处理高吞吐量的交易数据
- 转换和清洗原始数据
- 生成可用于欺诈检测的数据集
- 支持分析报告和机器学习建模
- 设计可扩展至真实生产系统的架构
## 🏗 高级架构(概念层面)
数据流:
1. **数据生成层**
- 客户、商户和交易的合成数据集
2. **摄取层(青铜)**
- 以原始格式存储数据
- 不可变、仅追加的存储
3. **转换层(白银)**
- 清洗和验证后的数据
- 模式强制
- 去重和标准化
4. **业务层(黄金)**
- 聚合的欺诈指标
- 特征工程数据集
- 报告就绪的表
5. **分析/机器学习层**
- 欺诈预测模型
- 探索性数据分析
- 仪表板就绪的输出
## 🛠 技术栈(规划中)
### 数据工程
- Apache Spark(Scala & PySpark)
- Spark SQL
- Delta Lake(未来的可选集成)
- Linux 环境
### 数据存储
- Parquet 格式
- 本地数据湖模拟
### 编排(规划中)
- Apache Airflow
### 云(未来范围)
- Google Cloud Platform(GCS、Dataproc)
- AWS(S3、EMR)——可选探索
### DevOps 与版本控制
- Git & GitHub
- 模块化项目结构
- 可重现的管道
### 机器学习(规划中)
- Python
- Scikit-learn
- 使用 Spark 进行特征工程
标签:Apache Airflow, Apache Spark, Apex, Bronze Silver Gold, Delta Lake, Gradle集成, Parquet, PySpark, SEO: 实时欺诈检测, SEO: 数据平台, SEO: 机器学习欺诈检测, Spark SQL, 交易数据, 反欺诈, 可扩展架构, 合成数据, 实时检测, 数据分层, 数据工程, 数据平台, 数据摄取, 数据湖, 数据转换, 机器学习, 模型准备, 欺诈检测, 特征工程, 生产级系统, 逆向工具, 金融科技