Avi1405/incident-observability-hub

GitHub: Avi1405/incident-observability-hub

一个整合 metrics、日志、告警、SLO 和事件处理流程的可观测性与运维响应工作区,帮助团队快速理解并处置生产环境问题。

Stars: 0 | Forks: 0

# Incident Observability Hub 一个专注于可观测性和事件响应的工作区,旨在帮助团队了解正在发生什么、为什么会发生,以及下一步该怎么做。 ## 为什么会有这个仓库 后端工程师的评判标准往往不仅在于功能开发,同样也在于系统的可靠性。这个项目展示了我有能力构建围绕生产系统的工具:metrics、logs、alerts、SLO 以及事件处理工作流。 ## MVP - 服务健康概览 - 针对流量、延迟和错误的 metrics 图表 - 集中式 logs 搜索 - Alert 规则与通知 - 事件时间线和状态变更 - 包含错误预算视图的 SLO 追踪 - 针对常见事件的 Runbook 链接 ## 构建计划 ### 阶段 1:数据模型与摄入 - 为服务、事件、alert 和 log 条目建模 - 构建一个简单的 API 用于摄入合成的遥测数据 - 存储 metrics 样本和事件历史 - 为应用填充演示服务和事件数据 ### 阶段 2:运维工作流 - 添加带有健康指示器的服务仪表板 - 添加可搜索的 logs 和错误过滤器 - 添加 alert 创建与确认功能 - 添加事件生命周期状态:open、investigating、mitigated、resolved ### 阶段 3:可靠性功能 - 添加 SLO 目标和错误预算计算 - 添加部署标记和注释 - 添加附加到服务和 alert 的 runbook - 为 alert 状态转换和事件处理添加测试 ### 阶段 4:叙事与打磨 - 添加事件时间线视图 - 添加紧凑的根本原因总结面板 - 添加演示截图和架构说明 - 为已完成的事件添加一个小型的复盘模板 ## 延伸目标 - Trace 可视化 - 自动化异常检测 - Slack 或邮件 alert 推送 - 公开状态页面 ## 成功的标准 - 该应用让生产环境中的问题变得更容易理解 - 用户体验像是一个真正的内部运维工具 - 该项目展示了对可靠性的思考,而不仅仅是仪表板的样式设计 - 我能够探讨可观测性、alerting 和事件响应中的权衡 ## v1 注意事项 从一个服务、一个仪表板和一条 alert 路径开始。如果这个流程让人感觉扎实,那么剩余的可观测性界面就会变得更加值得信赖。
标签:API集成, IT运维, SLO管理, Socks5代理, 可观测性, 监控告警