Sage-Canty/Platform-Runbooks

GitHub: Sage-Canty/Platform-Runbooks

这是一个针对 AWS/ECS 平台的运维文档库,包含值班手册、故障排查步骤及事后复盘模板,用于规范化处理告警与突发事件。

Stars: 0 | Forks: 0

# 平台 Playbooks 事件响应手册、事后回顾模板以及值班文档。手册直接从 Prometheus 告警注释中链接,以便当告警触发时,值班工程师可以直接跳转到正确的页面。 ## 手册 | 告警 | 手册 | 严重性 | |---|---|---| | `HighErrorRate` | [high-error-rate.md](./runbooks/high-error-rate.md) | Critical | | `ServiceDown` | [service-down.md](./runbooks/service-down.md) | Critical | | `ContainerCrashLooping` | [crash-loop.md](./runbooks/crash-loop.md) | Critical | | `HighLatency` | [high-latency.md](./runbooks/high-latency.md) | Warning | ## Playbooks | 主题 | Playbook | |---|---| | DNS 故障、SG 问题、网络 | [dns-networking.md](./playbooks/dns-networking.md) | ## 值班 - [on-call-guide.md](./on-call/on-call-guide.md) — 严重性级别、响应流程、沟通模板 ## 事后回顾流程 在 48 小时内为 SEV1 或 SEV2 提交事后回顾。复制该 [模板](./postmortems/templates/postmortem.md),将其命名为 `YYYY-MM-DD-brief-title.md`,填写所有章节,然后提交一个 PR。 ## 连接到 Prometheus 告警 ``` annotations: runbook: "https://github.com/Sage-Canty/Platform-Runbooks/blob/main/runbooks/high-error-rate.md" ``` ## 贡献 如果你发现缺失,请及时修复 —— 更新手册的最佳时机是在刚使用完它之后。添加 `*Last updated*` 并附上姓名和日期。
标签:AWS, DNS, DPI, ECS, on-call, Postmortem, Runbook, SRE, Terraform, Troubleshooting, 事故处理, 值班指南, 偏差过滤, 告警管理, 复盘模板, 安全组, 容器, 延迟监控, 故障响应, 故障复盘, 故障排查, 文档, 最佳实践, 服务宕机, 漏洞利用检测, 站点可靠性工程, 网络排查, 自定义请求头, 运维自动化, 防御加固, 高错误率