Olha-Yarmosh/fraud-risk-detection-pipeline
GitHub: Olha-Yarmosh/fraud-risk-detection-pipeline
基于随机森林的生产级欺诈风险检测流水线,通过行为特征工程和概率评分对可疑交易进行分级告警。
Stars: 0 | Forks: 0
# 🚨 欺诈风险检测 Pipeline
用于检测可疑交易并生成基于风险警报的生产级机器学习 Pipeline。
## 🧠 概述
本项目模拟了一个类似于金融科技平台中使用的真实世界欺诈检测系统。
它负责处理交易数据、生成特征、训练模型、预测欺诈概率,并为高风险活动触发警报。
## ⚙️ 架构
数据 → 特征 → 模型 → 风险评分 → 警报
### Pipeline:
- **训练 Pipeline (离线)**
- 生成数据
- 训练模型
- **推理 Pipeline (在线模拟)**
- 对交易进行评分
- 生成警报
## 📁 项目结构
```
fraud-risk-detection-pipeline/
│
├── 📁 data/ # Raw & processed transaction data
├── 📁 models/ # Trained ML models (serialized)
├── 📁 notebooks/ # Experiments & EDA (optional)
│
├── 📁 src/ # Core pipeline logic
│ ├── generate_sample_data.py # Synthetic data generation
│ ├── data_loader.py # Data ingestion & loading
│ ├── features.py # Feature engineering
│ ├── train_model.py # Model training
│ ├── predict.py # Inference logic
│ ├── alerting.py # Alert generation logic
│ └── pipeline.py # End-to-end pipeline orchestration
│
├── requirements.txt # Project dependencies
└── README.md # Project documentation
```
## 🔍 特征工程
该模型使用基于行为的信号:
- 交易金额
- 夜间活动
- 高额交易标志
- 国家/地区变更检测
- 设备变更检测
## 🤖 模型
- 算法:Random Forest
- 使用 `class_weight="balanced"` 处理类别不平衡问题
- 输出每笔交易的欺诈概率
## 🚨 警报逻辑
交易被划分为以下风险等级:
- **HIGH** → 概率 > 0.8 → 生成警报
- **MEDIUM** → 概率 > 0.5
- **LOW** → 其他情况
示例:
ALERT → Transaction TX_5 | Risk: 0.95 | User: USER_20
## ▶️ 如何运行
### 1. 安装依赖项
```
pip install -r requirements.txt
```
### 2. 运行完整 Pipeline
```
python src/pipeline.py
```
## 📊 示例输出
- 模型性能指标
- 每笔交易的欺诈概率
- 控制台打印的高风险警报
## 💡 关键设计决策
- 训练与推理 Pipeline 分离
- 基于行为模式的特征工程
- 基于概率的决策系统(不仅是分类)
- 可扩展的模块化架构
## 🚀 未来改进
- 实时流处理 (Kafka / 事件 Pipeline)
- 模型监控与漂移检测
- 用于评分的 API 服务 (FastAPI)
- 数据库集成
- 基于业务 KPI 的阈值调优
标签:Apex, Fintech, ML流水线, Python, 交易安全, 交易数据, 代码示例, 分类模型, 反欺诈, 在线推理, 序列化模型, 异常检测, 报警系统, 数据分析, 数据流处理, 数据生成, 数据科学, 数据管道, 无后门, 机器学习, 模型推理, 模型评分, 欺诈风险检测, 特征工程, 生产级架构, 监控, 离线训练, 网络安全, 自动化流水线, 资源验证, 软件工程, 逆向工具, 金融科技, 随机森林, 隐私保护, 风控系统, 风险评分