jhondados/automated-data-quality-framework
GitHub: jhondados/automated-data-quality-framework
面向 BigQuery 数据湖的自动化数据质量框架,通过 200+ 内置规则与 ML 异常检测实现数据质量的持续监控、告警与可视化。
Stars: 0 | Forks: 0
# ✅ 自动化数据质量框架
[](.)
[](.)
[](.)
## 🏆 影响
- 每月超过 5 亿条记录实现 **99.3% 的数据质量得分**
- 在前 90 天内**防止了 47 起数据事件**(预计挽回了 280 万雷亚尔的损失)
- 数据质量问题的**检测时间缩短至 15 分钟**(相比人工的 48 小时)
- 12 个月内**零数据质量 SLA 违规**
## ✨ 规则类别
- **完整性**:Null 检查、必填字段、最低覆盖率阈值
- **唯一性**:主键校验、去重率
- **有效性**:类型检查、范围验证、regex 模式、引用完整性
- **时效性**:新鲜度 SLA、预期更新频率
- **一致性**:跨表对账、聚合检查
- **ML 异常**:统计过程控制、用于异常值检测的孤立森林
标签:BigQuery, 后端开发, 多线程, 异常检测, 数据工程, 数据治理, 数据质量, 自动化监控, 逆向工具