EIM019/azure-financebank-data-pipeline

GitHub: EIM019/azure-financebank-data-pipeline

基于 Python 的 Azure 金融交易数据工程流水线，实现从原始数据采集、清洗、KPI 计算到异常检测和 SQL 数据仓库加载的端到端自动化处理。

Stars: 0 | Forks: 0

# Azure FinanceBank 数据流水线 ## 概述本项目展示了一个用于金融交易数据的数据工程流水线。它从 Azure Blob Storage 读取原始银行交易数据，使用 Python 验证和清洗数据，计算业务指标，生成报告图表，并将处理后的输出数据加载到 Azure SQL。 ## 流水线流程 1. 从 Azure Blob Storage 读取原始交易数据。 2. 验证所需的 schema 列。 3. 清洗分行名称，移除重复项，并处理缺失的成本值。 4. 计算利润、月度利润、季度利润和异常信号。 5. 生成关于分行、产品和月度表现的报告图表。 6. 将精选数据和异常情况加载到 Azure SQL。 ## 技术栈 - Python - Pandas - SQLAlchemy - Azure Blob Storage - Azure SQL - Matplotlib ## 关键文件 - `pipelines/ingest/financeBank/src/main.py` - 流水线主入口点。 - `pipelines/ingest/financeBank/src/clean_data.py` - 数据清洗辅助工具。 - `pipelines/ingest/financeBank/src/calc_profit.py` - KPI 和利润计算。 - `pipelines/ingest/financeBank/src/export_sql.py` - SQL 加载逻辑。 - `pipelines/ingest/financeBank/reports/charts/` - 生成的图表输出。 ## 环境变量根据 `.env.example` 创建一个本地 `.env` 文件，并添加您自己的 Azure 和数据库凭据。切勿提交真实的密钥信息。 ## 作品集价值本项目展示了批量导入、云存储集成、数据验证、分析准备、报告输出以及 SQL 数据仓库加载。

标签：Azure Blob Storage, Azure SQL, ETL, JavaCC, Python, 数据工程, 数据管道, 无后门, 软件工程, 逆向工具