wtlinnertz/aieos-reliability-resilience-kit
GitHub: wtlinnertz/aieos-reliability-resilience-kit
AIEOS 第 6 层可靠性治理套件,提供 SLO 定义、Error Budget 管理、事件响应和健康审查的完整工件体系和 AI 辅助生成能力。
Stars: 0 | Forks: 0
# aieos-reliability-resilience-kit
**AIEOS 系统第 6 层 — 可靠性与韧性**
此套件管控生产系统如何被监控、度量并保持运行。它接收来自 Release & Exposure Kit 的已冻结 Release Record (RR),并生成可靠性记录,用于记录“正常工作”的含义、发生了什么问题及其解决方式,以及服务随时间的表现如何 —— 将可靠性信号传递给下游的第 7 层。
## 本套件的功能
Release & Exposure Kit(第 5 层)生成的 Release Record 声明发布已完成,确认监控已激活,并记录了 SLO 基准。但“监控已激活”并不等同于“可靠性受控”。本套件管控这一差距:
- **SLO 定义** — 对该服务而言,“正常工作”意味着什么?(错误率、延迟、交付保证)
- **Error budgets** — 在需要采取行动之前,允许多少不可靠性?
- **Burn rate alerts** — SLO 何时正在以不可持续的速度被消耗?
- **Incident management** — 发生了什么、谁做出了响应、根本原因是什么?
- **Periodic health reviews** — 服务随时间的趋势是变好还是变坏?
## 工件类型
本套件生成三种受控工件类型以及一个入口关卡:
| 步骤 | 工件 | 用途 |
|------|----------|---------|
| 0 | Service Reliability Entry Record (SRER) | 入口关卡:确认 RR 已冻结、所有权已接受、监控已确认 |
| 1 | Service Reliability Profile (SRP) | SLO 定义、error budgets、burn rate alerts —— 即“正常工作意味着什么”的文档 |
| 2 | Incident Record (IR) | 单次 Incident 的证据,从检测到事后审查 |
| 3 | Reliability Health Report (RHR) | SLO 合规性、error budget 状态和 Incident 模式的定期审查 |
每种受控工件类型都恰好有四个管理文件:spec、template、prompt、validator。
## 快速开始
1. 阅读 `docs/playbook.md` — 完整的流程定义
2. 阅读 `docs/how-to-use-with-ai.md` — 会话设置和 AI 工具指南
3. 查看 `examples/basic-operation/` — 一个实际操作示例(TaskFlow notification-service 运维)
## 仓库结构
```
docs/
principles/ # Organizational reliability policy (input material)
specs/ # Content rules and hard gates per artifact type
artifacts/ # Templates and intake forms
prompts/ # AI generation + utility prompts
validators/ # Quality gate definitions
playbook.md # End-to-end process definition
index.md # Documentation entry point
how-to-adapt.md # Organizational adoption guidance
how-to-use-with-ai.md # AI tool usage guide
governance-model.md # AIEOS structural rules (reference)
examples/
basic-operation/ # Worked example: TaskFlow notification-service operation
tests/
kit-test-plan.md # Structural integrity checks and flow scenarios
CLAUDE.md # AI operating instructions
```
## AIEOS 层级
| 层级 | 套件 | 状态 |
|-------|-----|--------|
| 2. Product Intelligence | `aieos-product-intelligence-kit` | Built |
| 4. Engineering Execution | `aieos-engineering-execution-kit` | Built |
| 5. Release & Exposure | `aieos-release-exposure-kit` | Built |
| **6. Reliability & Resilience** | **`aieos-reliability-resilience-kit`** | **Built** |
| 7. Insight & Evolution | `aieos-insight-evolution-kit` | Planned |
请参阅 `aieos-governance-foundation/docs/layer-model.md` 以了解完整的七层模型。
标签:AIEOS, IT运维管理, SLI, SLO, SRE, SRE工具链, 事后复盘, 事故管理, 偏差过滤, 健康检查, 发布后治理, 可靠性工程, 弹性工程, 性能监控, 服务水平协议, 服务等级目标, 根因分析, 燃尽率告警, 站点可靠性工程, 系统稳定性, 运维监控, 错误预算, 错误预算策略, 防御加固