jhondados/automated-data-quality-framework

GitHub: jhondados/automated-data-quality-framework

面向 BigQuery 数据湖的自动化数据质量框架,通过 200+ 内置规则与 ML 异常检测实现数据质量的持续监控、告警与可视化。

Stars: 0 | Forks: 0

# ✅ 自动化数据质量框架 [![规则](https://img.shields.io/badge/Built--in%20Rules-200%2B-blue)](.) [![覆盖率](https://img.shields.io/badge/Data%20Coverage-99.3%25-green)](.) [![告警](https://img.shields.io/badge/Alerting-Slack%20%2B%20PagerDuty-orange)](.) ## 🏆 影响 - 每月超过 5 亿条记录实现 **99.3% 的数据质量得分** - 在前 90 天内**防止了 47 起数据事件**(预计挽回了 280 万雷亚尔的损失) - 数据质量问题的**检测时间缩短至 15 分钟**(相比人工的 48 小时) - 12 个月内**零数据质量 SLA 违规** ## ✨ 规则类别 - **完整性**:Null 检查、必填字段、最低覆盖率阈值 - **唯一性**:主键校验、去重率 - **有效性**:类型检查、范围验证、regex 模式、引用完整性 - **时效性**:新鲜度 SLA、预期更新频率 - **一致性**:跨表对账、聚合检查 - **ML 异常**:统计过程控制、用于异常值检测的孤立森林
标签:BigQuery, 后端开发, 多线程, 异常检测, 数据工程, 数据治理, 数据质量, 自动化监控, 逆向工具