HyegoJarllys/Automated-Data-Platform-Medallion-Architecture
GitHub: HyegoJarllys/Automated-Data-Platform-Medallion-Architecture
基于 GCP 的生产级数据平台,结合 Medallion 架构、dbt 转换与 AI 驱动的运维 Agent,为中小企业提供从数据提取到质量监控的端到端自动化方案。
Stars: 0 | Forks: 0
# 自动化数据平台(Medallion Architecture)
这是一个生产级的数据平台,能够自动化数据管道,确保数据质量,并包含一个由 AI 驱动的监控 Agent,用于检测故障并建议纠正措施。
本项目展示了企业如何从手动电子表格迈向可靠、自动化且受监控的数据环境。
## 业务问题
许多中小型组织都面临着相同的挑战:
- 在 Excel 中手动构建报告
- 数据来自多个来源
- 数据对不上
- 管道故障发现得太晚
- 没有监控或数据责任人
当数据出现问题时,仪表盘就会过时,导致决策使用了错误的信息。
## 解决方案
本平台提供:
- 自动化的数据提取与转换
- 干净且标准化的数据集(Medallion:Bronze → Silver → Gold)
- 面向业务的模型(Star Schema)
- 用于仪表盘的预聚合 KPI
- 跨所有层的数据质量测试
- 具有智能警报的实时监控
- 由 AI 驱动的事件诊断和纠正建议
## 核心功能
### 自动化数据管道
- 使用 Airflow 调度工作流
- 使用 dbt 进行增量和模块化转换
- 端到端编排
### Medallion 架构
- **Bronze:** 用于审计和恢复的原始数据
- **Silver:** 清洗和验证后的数据
- **Gold:** 业务指标和分析模型
### 数据质量与治理
- 300 多个自动化测试(unique、not_null、relationships、freshness)
- Schema 验证和血缘追踪
- Fail-fast(快速失败)管道策略
### 基于 AI 的可观测性(OpenClaw Agent)
- 在 5 分钟内检测出管道故障
- 将操作事件存储在 BigQuery 中
- 使用确定性规则诊断根本原因
- 使用 RAG + Gemini 生成 **Top 3 纠正措施**
- 通过 Discord 发送 P1/P2 警报
- 完整的事件历史记录以供审计
## 架构概述
管道流程:
数据源 → Bronze → Silver → Gold(DBT) → 仪表盘
↓
监控层
OpenClaw
技术栈:
- BigQuery(数据仓库)
- dbt(转换与测试)
- Apache Airflow(编排)
- Google Cloud Storage(数据湖)
- Cloud Run(OpenClaw 部署)
- Gemini AI(用于提供事件指导的 LLM)
有关详细的图表,请参阅 `/docs/01-architecture.md`。
## 业务影响(实现的功能)
- 消除手动报告工作
- 确保指标可靠且一致
- 在利益相关者察觉之前发现问题
- 降低运营风险
- 无需专门的数据团队即可扩展数据运营
此类平台非常适合:
- 正在超越 Excel 发展的小型公司
- 电子商务和运营团队
- 公共部门数据现代化
- 没有数据工程团队的组织
## 项目规模
- 46 多个 Airflow DAG
- 20 多个 dbt 模型
- 300 多项数据质量测试
- Star Schema + 聚合层
- 由 AI 驱动的 DataOps 监控 Agent
## 仓库结构
docs/ → 架构和设计文档
examples/ → 示例模型和 SQL
diagrams/ → 架构图
screenshots/ → 仪表盘和监控示例
## 本项目代表的服务
本作品集展示了交付以下内容的能力:
- 数据管道自动化(Airflow + dbt)
- BigQuery 数据仓库实施
- Excel/Sheets → 自动化数据工作流
- 数据质量和监控设置
- 由 AI 驱动的运营监控
- 面向分析的数据模型
## 关于
我是一名数据工程师,专注于为小型企业和公共部门组织构建自动化、可靠且可扩展的数据平台。
联系方式:请参阅 GitHub 个人资料。
标签:Airflow, AI运维, dbt, GCP, 多线程, 数据工程, 数据治理, 数据流水线, 逆向工具