pickhottea/data-reliability-framework
GitHub: pickhottea/data-reliability-framework
这是一个基于遥测驱动的数据可靠性与治理框架,通过消费上游证据来生成记分卡、异常登记册及符合ISO标准的治理审查报告。
Stars: 0 | Forks: 0
# 数据可靠性框架
一个遥测驱动的治理仓库,用于数据可靠性、数据质量、可观测性证据以及审计对齐审查。
该仓库最初是 Project F 的治理框架,现已演变为一个**可治理域的运作仓库**,其中智慧城市是首个试点领域。
其设计旨在回答一个实际的治理问题:
## 仓库目的
该仓库是数据可靠性工作的治理与证据消费层。
它**不**直接实现上游数据管道。
相反,它消费由实现仓库生成的遥测和精选证据,并将其转化为:
- 记分卡
- 异常规则
- 异常登记册
- 月度治理审查
- 观测指标汇总
- 审计对齐证据制品
这意味着该仓库专注于:
- 可靠性治理
- 证据解读
- 风险分类
- 面向控制的审查
- 可重复的月度决策支持
## 当前运作模式
该仓库当前采用以下模式运作:
1. **实现仓库** 生成遥测和精选证据。
2. 该仓库在 `evidence/` 下摄取这些输出。
3. 治理分析脚本汇总观测到的运行、新鲜度和质量状况。
4. 治理制品将证据转换为:
- 记分卡
- 异常跟踪
- 月度审查输出
- 未来审计和管理审查证据
首个活跃的治理试点领域为:
- **智慧城市空气质量**
## 当前仓库结构
### 治理框架
- `domains/`
- `contracts/`
- `governance/`
- `incidents/`
- `kpi/`
- `guides/`
### 证据与分析
- `evidence/`
- `reports/`
- `scorecards/`
- `exceptions/`
- `scripts/`
### 上游与参考资料
- `upstream-docs/`
## 智慧城市试点领域
智慧城市是本仓库中的首个治理试点领域。
它为治理审查提供真实的遥测和精选证据,包括:
- 管道运行日志
- 管道跟踪日志
- 管道指标
- 质量指标
- 新鲜度指标
- 结构化错误证据
- 原始运行时事件
这些内容用于生成:
- `reports/smart_city_reliability_summary.md`
- `reports/smart_city_failure_taxonomy.md`
- `reports/smart_city_observed_metrics.md`
- `reports/generated/smart_city_observed_metrics.json`
- `scorecards/smart_city_scorecard.yaml`
- `exceptions/smart_city_exception_rules.yaml`
- `exceptions/smart_city_exception_register.md`
- `governance/monthly_review_smart_city.md`
## 为什么选择遥测优先而不是 ELK 优先
对于 Project 2,本仓库目前遵循**遥测优先的可观测性方法**。
这一选择是有意的。
### 为什么选择遥测优先
- 遥测已结构化以供治理使用:
- `run_id`
- `trace_id`
- `step_name`
- `status`
- `error_type`
- `severity`
- `retryable`
- 遥测直接与以下内容集成:
- 记分卡
- 异常跟踪
- 月度治理审查
- 观测指标 JSON
- 遥测比完整的 ELK 技术栈更易于运维化
- 遥测更适合治理证据标准化和可重复审查输出
### ELK 仍然提供的内容
ELK 仍是有效的未来扩展路径,适用于:
- 日志搜索
- 面向搜索的运维调查
- 面向仪表板的 incident 工作流
- 告警转工单运维证据实验
### 当前立场
本仓库**并不**排斥 ELK。
相反,它首先建立遥测优先的基线,并将 ELK 留作未来的对比实验。
## Project F 扩展路线图
在完成 Project F 后,该框架可在三个应用方向上进行扩展:

*图:包含三个应用扩展路径(SQL 可靠性、可观测性证据自动化和业务意图保留)的 Project F 治理框架。*
## 扩展仓库映射
该路线图仍然适用,但仓库对齐现已明确如下:
### Project 1 — 流式 SQL 可靠性
**主要对齐:** `governed-patent-analytics-and-retrieval-platform`
重点:
- 实时或近实时 SQL 验证
- 贴近业务规则的质量强制执行
- 决策就绪性验证
- 结构化规则强制执行
该方向最好在以面向 SQL 的验证和可治理分析逻辑为核心的仓库中体现。
### Project 2 — ELK 可观测性证据 + 自动化工单
**主要对齐:** `data-reliability-framework`
当前实施路径:
- 遥测优先的治理证据
- 观测指标分析
- 记分卡
- 异常跟踪
- 月度治理审查
计划中的未来扩展:
- 原生遥测治理证据与基于 ELK 的运维可观测性工作流之间的对比实验
本仓库中的自动化工单目前计划为**治理级伪自动化工单**,而不是完整的企业级工单技术栈。
这意味着该仓库可以生成:
- 工单候选
- 事件候选
- 需采取行动的记录
- 关联 Runbook 的治理操作
更偏向运维的 Alert → Ticket → Runbook 实验可能会在智慧城市实现仓库中进行原型开发。
### Project 3 — 业务意图保留
**主要对齐:** 合并入 `data-reliability-framework`
Project 3 已作为治理验证和意图保留扩展路径并入本仓库。
该方向将框架从仅限可靠性审查扩展到:
- 跨转换的治理验证
- 具备血缘意识的审查
- 业务意图保留
- 跨环境风险解读
这意味着该仓库不仅评估管道是否运行,还评估转换输出是否继续保留:
- 预期的治理含义
- 控制解释
- 决策上下文
- 跨环境一致性
配套的重型策略仓库仍可能提供案例研究材料,但该方向的主要集成点仍然是本仓库。
## 当前治理能力
该仓库现支持:
- 域注册
- 合同模板
- KPI / SLA / SLO 目录结构
- 事件阈值
- 记分卡生成
- 异常规则定义
- 异常登记册跟踪
- 月度治理审查
- 遥测驱动的观测指标分析
这使得框架能够从静态文档转向**可重复的治理审查**。
## 计划中的下一步方向
下一阶段的工作是有意排序的。
### 优先级顺序
#### 1. 与 ISO 27001 对齐的扩展
这是当前的优先事项。
为什么首先做:
- 仓库已具备结构化证据
- 治理输出已存在
- 审查节奏已存在
- 控制/证据映射现在是最自然的下一步
计划输出:
- ISO 27001 控制到证据的映射
- 管理审查输入/输出
- 纠正措施跟踪
- 审计对齐证据索引
#### 2. 治理级伪自动化工单
在控制/证据映射更清晰后,本仓库可增加轻量级自动化以用于:
- 工单候选创建
- 异常升级信号
- 需采取行动的输出
- 关联 Runbook 的治理响应
#### 3. 跨转换的治理验证
这是合并后的 Project 3 方向。
计划重点:
- 具备转换感知的治理审查
- 血缘解读
- 意图保留检查
- 下游含义保留
#### 4. 跨环境风险解读
这是 Project 3 的扩展,探讨治理含义在以下方面是否保持不变:
- 环境
- 处理阶段
- 转换层
- 策略上下文
#### 5. 可选的 ELK 对比实验
这是一个有效的扩展,但不是当前的优先事项。
应将其视为一条对比路径:
- 遥测优先的治理证据
- 对比
- 基于 ELK 的运维证据工作流
## 当前审查逻辑
该仓库当前跨至少五个治理维度解读证据:
- 运行可靠性
- 数据质量
- 新鲜度 / 及时性
- 事件 / 异常态势
- 证据完整性 / 标准化
这已通过智慧城市试点领域进行了演示。
## 示例工作流
一个典型的工作流现在如下所示:
1. 上游实现仓库生成遥测和精选证据
2. 证据被复制到 `evidence//`
3. 运行分析脚本:
- `python scripts/analyze_smart_city_telemetry.py`
4. 生成 JSON 和 markdown 观测指标
5. 更新记分卡
6. 更新异常登记册
7. 刷新月度治理审查
这是将原始遥测转化为治理审查的运作循环。
## 上游证据来源
该框架审查由实现仓库生成的遥测、质量和运维证据。
一个活跃的上游示例是智慧城市空气质量平台,它为下游治理和审查发出运行日志、span 事件、metric 事件、质量汇总和结构化失败证据。
## 定位
现在应将该仓库理解为:
**一个以遥测驱动的数据治理仓库,智慧城市是首个受治理的试点领域**
它不再仅仅是一个静态框架仓库。
它现在是一个可运作的治理层,能够消费证据并生成结构化的审查输出。
## 作者
**pickhottea**
重点:数据可靠性 / 数据质量与可观测性工程
标签:API集成, Homebrew安装, ISO标准, 仪表盘, 决策支持, 可观测性, 合规性准备, 审计证据, 异常检测, 数据可靠性, 数据治理, 数据监控, 数据质量, 智慧城市, 治理框架, 空气质量监控, 证据管理, 逆向工具, 遥测, 防御加固, 风险分类