HyegoJarllys/Automated-Data-Platform-Medallion-Architecture

GitHub: HyegoJarllys/Automated-Data-Platform-Medallion-Architecture

基于 GCP 的生产级数据平台,结合 Medallion 架构、dbt 转换与 AI 驱动的运维 Agent,为中小企业提供从数据提取到质量监控的端到端自动化方案。

Stars: 0 | Forks: 0

# 自动化数据平台(Medallion Architecture) 这是一个生产级的数据平台,能够自动化数据管道,确保数据质量,并包含一个由 AI 驱动的监控 Agent,用于检测故障并建议纠正措施。 本项目展示了企业如何从手动电子表格迈向可靠、自动化且受监控的数据环境。 ## 业务问题 许多中小型组织都面临着相同的挑战: - 在 Excel 中手动构建报告 - 数据来自多个来源 - 数据对不上 - 管道故障发现得太晚 - 没有监控或数据责任人 当数据出现问题时,仪表盘就会过时,导致决策使用了错误的信息。 ## 解决方案 本平台提供: - 自动化的数据提取与转换 - 干净且标准化的数据集(Medallion:Bronze → Silver → Gold) - 面向业务的模型(Star Schema) - 用于仪表盘的预聚合 KPI - 跨所有层的数据质量测试 - 具有智能警报的实时监控 - 由 AI 驱动的事件诊断和纠正建议 ## 核心功能 ### 自动化数据管道 - 使用 Airflow 调度工作流 - 使用 dbt 进行增量和模块化转换 - 端到端编排 ### Medallion 架构 - **Bronze:** 用于审计和恢复的原始数据 - **Silver:** 清洗和验证后的数据 - **Gold:** 业务指标和分析模型 ### 数据质量与治理 - 300 多个自动化测试(unique、not_null、relationships、freshness) - Schema 验证和血缘追踪 - Fail-fast(快速失败)管道策略 ### 基于 AI 的可观测性(OpenClaw Agent) - 在 5 分钟内检测出管道故障 - 将操作事件存储在 BigQuery 中 - 使用确定性规则诊断根本原因 - 使用 RAG + Gemini 生成 **Top 3 纠正措施** - 通过 Discord 发送 P1/P2 警报 - 完整的事件历史记录以供审计 ## 架构概述 管道流程: 数据源 → Bronze → Silver → Gold(DBT) → 仪表盘 ↓ 监控层 OpenClaw 技术栈: - BigQuery(数据仓库) - dbt(转换与测试) - Apache Airflow(编排) - Google Cloud Storage(数据湖) - Cloud Run(OpenClaw 部署) - Gemini AI(用于提供事件指导的 LLM) 有关详细的图表,请参阅 `/docs/01-architecture.md`。 ## 业务影响(实现的功能) - 消除手动报告工作 - 确保指标可靠且一致 - 在利益相关者察觉之前发现问题 - 降低运营风险 - 无需专门的数据团队即可扩展数据运营 此类平台非常适合: - 正在超越 Excel 发展的小型公司 - 电子商务和运营团队 - 公共部门数据现代化 - 没有数据工程团队的组织 ## 项目规模 - 46 多个 Airflow DAG - 20 多个 dbt 模型 - 300 多项数据质量测试 - Star Schema + 聚合层 - 由 AI 驱动的 DataOps 监控 Agent ## 仓库结构 docs/ → 架构和设计文档 examples/ → 示例模型和 SQL diagrams/ → 架构图 screenshots/ → 仪表盘和监控示例 ## 本项目代表的服务 本作品集展示了交付以下内容的能力: - 数据管道自动化(Airflow + dbt) - BigQuery 数据仓库实施 - Excel/Sheets → 自动化数据工作流 - 数据质量和监控设置 - 由 AI 驱动的运营监控 - 面向分析的数据模型 ## 关于 我是一名数据工程师,专注于为小型企业和公共部门组织构建自动化、可靠且可扩展的数据平台。 联系方式:请参阅 GitHub 个人资料。
标签:Airflow, AI运维, dbt, GCP, 多线程, 数据工程, 数据治理, 数据流水线, 逆向工具