Scoutflo/Scoutflo-SRE-Playbooks

GitHub: Scoutflo/Scoutflo-SRE-Playbooks

一个面向 SRE 的开源事件响应知识库，为 AWS、Kubernetes 和 Sentry 提供了系统化的故障排查操作手册，帮助值班工程师加速根因定位与问题修复。

Stars: 77 | Forks: 18

# SRE Playbooks 仓库 [![License](https://img.shields.io/badge/license-MIT-blue.svg)](LICENSE) [![欢迎贡献](https://img.shields.io/badge/contributions-welcome-brightgreen.svg)](CONTRIBUTING.md) [![GitHub Issues](https://img.shields.io/github/issues/Scoutflo/scoutflo-SRE-Playbooks)](https://github.com/Scoutflo/scoutflo-SRE-Playbooks/issues) [![GitHub Stars](https://img.shields.io/github/stars/Scoutflo/scoutflo-SRE-Playbooks)](https://github.com/Scoutflo/scoutflo-SRE-Playbooks/stargazers) [![GitHub Forks](https://img.shields.io/github/forks/Scoutflo/scoutflo-SRE-Playbooks)](https://github.com/Scoutflo/scoutflo-SRE-Playbooks/network/members) [![GitHub Discussions](https://img.shields.io/github/discussions/Scoutflo/scoutflo-SRE-Playbooks)](https://github.com/Scoutflo/scoutflo-SRE-Playbooks/discussions) [![GitHub Contributors](https://img.shields.io/github/contributors/Scoutflo/scoutflo-SRE-Playbooks)](https://github.com/Scoutflo/scoutflo-SRE-Playbooks/graphs/contributors) ## 目录 - [概述](#overview) - [仓库结构](#repository-structure) - [内容](#contents) - [快速上手](#getting-started) - [使用说明](#usage) - [术语与词汇表](#terminology--glossary) - [快速参考](#quick-reference) - [故障排除指南](#troubleshooting-guide) - [示例与用例](#examples--use-cases) - [常见问题](#faq) - [视频教程](#video-tutorials) - [路线图](#roadmap) - [贡献指南](#contributing) - [联系我们](#connect-with-us) - [支持](#support) - [相关资源](#related-resources) - [License](#license) ## 概述本仓库包含 **414 份详尽的事件响应 playbook**，旨在帮助 SRE (Site Reliability Engineer) 系统化地诊断并解决 AWS、Kubernetes 和 Sentry 环境中常见的基础设施与应用问题。 ### 为什么选择本仓库？ - **系统化方法**：每份 playbook 都遵循一致的结构，并提供清晰的诊断步骤 - **节省时间**：通过关联分析框架快速定位根因 - **社区驱动**：由开源社区持续改进 - **生产就绪**：基于真实的事件响应场景 - **全面覆盖**：232 份 Kubernetes playbook + 157 份 AWS playbook + 25 份 Sentry playbook - **主动监控**：56 份 K8s + 65 份 AWS 主动 playbook，用于容量规划与合规性检查 ### 诊断改进所有 playbook 均采用 **事件优先 (events-first)** 的方法进行根因分析： - 诊断部分会优先检查近期事件和变更，然后再深入分析配置细节 - 条件逻辑模式有助于根据观察到的症状缩小原因范围 - 基于时间的关联分析能够系统化地将事件与故障联系起来 ### 用例 - **事件发生期间**：用于快速参考和排查常见问题 - **值班轮换 (On-Call)**：值班工程师必备的操作手册 (runbook) 合集 - **知识共享**：跨团队标准化故障排查流程 - **培训学习**：学习系统化的事件响应方法论 - **文档参考**：构建您专属的操作手册库 ## 仓库结构 ``` scoutflo-SRE-Playbooks/ ├── AWS Playbooks/ # 157 AWS playbooks │ ├── 01-Compute/ # 27 playbooks (EC2, Lambda, ECS, EKS) │ ├── 02-Database/ # 8 playbooks (RDS, DynamoDB) │ ├── 03-Storage/ # 7 playbooks (S3) │ ├── 04-Networking/ # 17 playbooks (VPC, ELB, Route53) │ ├── 05-Security/ # 16 playbooks (IAM, KMS, GuardDuty) │ ├── 06-Monitoring/ # 8 playbooks (CloudTrail, CloudWatch) │ ├── 07-CI-CD/ # 9 playbooks (CodePipeline, CodeBuild) │ ├── 08-Proactive/ # 65 proactive monitoring playbooks │ └── README.md ├── K8s Playbooks/ # 232 Kubernetes playbooks │ ├── 01-Control-Plane/ # 24 playbooks │ ├── 02-Nodes/ # 24 playbooks │ ├── 03-Pods/ # 41 playbooks │ ├── 04-Workloads/ # 25 playbooks │ ├── 05-Networking/ # 27 playbooks │ ├── 06-Storage/ # 9 playbooks │ ├── 07-RBAC/ # 6 playbooks │ ├── 08-Configuration/ # 6 playbooks │ ├── 09-Resource-Management/ # 8 playbooks │ ├── 10-Monitoring-Autoscaling/ # 3 playbooks │ ├── 11-Installation-Setup/ # 1 playbook │ ├── 12-Namespaces/ # 2 playbooks │ ├── 13-Proactive/ # 56 proactive monitoring playbooks │ └── README.md ├── Sentry Playbooks/ # 25 Sentry playbooks │ ├── 01-Error-Tracking/ # 19 playbooks │ ├── 02-Performance/ # 6 playbooks │ ├── 03-Release-Health/ # Placeholder │ └── README.md ├── CONTRIBUTING.md └── README.md ``` ## 内容 ### AWS Playbook (`AWS Playbooks/`) **157 份 playbook**，涵盖 7 个服务类别及主动监控： - **计算服务** (27 份 playbook)：EC2、Lambda、ECS、EKS - **数据库** (8 份 playbook)：RDS、DynamoDB - **存储** (7 份 playbook)：S3 - **网络** (17 份 playbook)：VPC、ELB、Route 53、NAT Gateway - **安全** (16 份 playbook)：IAM、KMS、GuardDuty、CloudTrail - **监控** (8 份 playbook)：CloudTrail、CloudWatch - **CI/CD** (9 份 playbook)：CodePipeline、CodeBuild - **主动监控** (65 份 playbook)：容量规划、合规性、成本优化 **核心主题：** - 连接超时与网络问题 - 访问被拒绝与权限问题 - 资源不可用与容量问题 - 安全漏洞与威胁检测 - 服务集成故障 - 主动容量与合规性监控请查阅 [AWS Playbooks/README.md](AWS%20Playbooks/README.md) 获取完整的文档和 playbook 列表。 ### Kubernetes Playbook (`K8s Playbooks/`) **194 份 playbook**，分为 **13 个分类文件夹**，涵盖 Kubernetes 集群与工作负载问题： **文件夹结构：** - `01-Control-Plane/` (18 份 playbook) - API Server、Scheduler、Controller Manager、etcd - `02-Nodes/` (12 份 playbook) - 节点就绪状态、kubelet 问题、资源约束 - `03-Pods/` (31 份 playbook) - 调度、生命周期、健康检查、资源限制 - `04-Workloads/` (23 份 playbook) - Deployments、StatefulSets、DaemonSets、Jobs、HPA - `05-Networking/` (19 份 playbook) - Services、Ingress、DNS、Network Policies、kube-proxy - `06-Storage/` (9 份 playbook) - PersistentVolumes、PersistentVolumeClaims、StorageClasses - `07-RBAC/` (6 份 playbook) - ServiceAccounts、Roles、RoleBindings、授权 - `08-Configuration/` (6 份 playbook) - ConfigMaps 与 Secrets 访问问题 - `09-Resource-Management/` (8 份 playbook) - Resource Quotas、资源超卖、计算资源 - `10-Monitoring-Autoscaling/` (3 份 playbook) - Metrics Server、Cluster Autoscaler - `11-Installation-Setup/` (1 份 playbook) - Helm 与安装问题 - `12-Namespaces/` (2 份 playbook) - Namespace 管理问题 - `13-Proactive/` (56 份 playbook) - 主动监控、容量规划、合规性 **核心主题：** - Pod 生命周期问题 (CrashLoopBackOff、Pending、Terminating) - 控制平面组件故障 - 网络连通性与 DNS 解析 - 存储与卷挂载问题 - RBAC 与权限错误 - Resource Quota 与容量限制 - 主动容量与合规性监控请查阅 [K8s Playbooks/README.md](K8s%20Playbooks/README.md) 获取完整的文档和 playbook 列表。 ### Sentry Playbook (`Sentry Playbooks/`) **25 份 playbook**，涵盖错误跟踪与性能监控： **文件夹结构：** - `01-Error-Tracking/` (19 份 playbook) - 错误捕获、分组、告警与调试 - `02-Performance/` (6 份 playbook) - 事务监控、性能问题、链路追踪 - `03-Release-Health/` - 发布跟踪与健康监控 (占位符) **核心主题：** - 错误捕获与报告问题 - Issue 分组与去重 - 告警配置与路由 - 性能事务监控 - SDK 集成故障排查 - Release 健康追踪请查阅 [Sentry Playbooks/README.md](Sentry%20Playbooks/README.md) 获取完整的文档和 playbook 列表。 ## 快速上手 ### 前置条件 - 具备 AWS 服务、Kubernetes 或 Sentry 的基础知识 - 拥有 AWS Console、Kubernetes 集群或 Sentry 仪表板的访问权限 (用于执行 playbook) - 安装 Git (用于克隆仓库) ### 安装 #### 选项 1：克隆仓库 ``` # Clone 仓库 git clone https://github.com/Scoutflo/scoutflo-SRE-Playbooks.git # 导航到仓库 cd scoutflo-SRE-Playbooks # 查看可用的 playbooks ls AWS\ Playbooks/ ls K8s\ Playbooks/ ls Sentry\ Playbooks/ ``` #### 选项 2：作为 Git Submodule 使用将 playbook 包含在您自己的项目中： ``` git submodule add https://github.com/Scoutflo/scoutflo-SRE-Playbooks.git playbooks ``` #### 选项 3：下载特定 Playbook 直接通过 GitHub 网页界面浏览并下载单个 playbook。 ### 快速入门 1. **确定您的问题**：判断其属于 AWS、Kubernetes 还是 Sentry 问题 2. **导航至 Playbooks**： - AWS 问题 -> `AWS Playbooks/` - K8s 问题 -> `K8s Playbooks/[category-folder]/` - Sentry 问题 -> `Sentry Playbooks/[category-folder]/` 3. **找到 Playbook**：将您的症状与 playbook 标题进行匹配 4. **遵循步骤**：按顺序执行诊断步骤 5. **使用诊断部分**：应用关联分析进行根因定位 ### 了解更多 - **观看教程**：访问我们的 [YouTube 频道](https://www.youtube.com/@scoutflo6727) 获取视频操作指南与最佳实践 - **AI SRE 演示**：观看 [Scoutflo AI SRE 演示](https://youtu.be/P6xzFUtRqRc?si=0VN9oMV05rNzXFs8)，了解由 AI 驱动的事件响应 - **Scoutflo 文档**：访问 [Scoutflo 文档](https://scoutflo-documentation.gitbook.io/scoutflo-documentation) 获取平台指南 - **加入社区**：在我们的 [Slack 工作区](https://scoutflo.slack.com) 与其他 SRE 交流 ### 示例用法 **场景**：EC2 实例 SSH 连接超时 1. 导航至 `AWS Playbooks/` 2. 打开 `Connection-Timeout-SSH-Issues-EC2.md` 3. 按照 Playbook 步骤操作，将 `` 替换为您实际的实例 ID 4. 使用“诊断”部分将事件与故障关联起来 5. 应用确定的修复方案 ## 使用说明 ### Playbook 工作原理 **重要提示**：这些 playbook 专为使用自然语言处理 (NLP) 的 **AI Agent** 设计。它们使用自然语言指令，AI Agent 会利用可用工具 (如 AWS MCP 工具、Kubernetes MCP 工具或 kubectl) 解释并执行这些指令。 **Playbook 步骤示例：** - 自然语言：“从 `` 命名空间中的 Pod `` 提取日志，并分析错误信息” - AI Agent 动作：解析此指令，并使用适当的工具获取并分析 Pod 日志 **用于手动操作：** - 虽然 playbook 是为 AI Agent 优化的，但您也可以手动使用它们 - 每个分类文件夹中的 README 文件包含等效的 kubectl/AWS CLI 命令，方便手动验证 - 在手动执行步骤时，请将占位符替换为实际的资源标识符 ### Playbook 结构所有 playbook 都遵循一致的结构： 1. **标题** - 清晰、具描述性的问题标识 2. **含义** - 问题的定义、触发条件、症状和根因 3. **影响** - 业务与技术层面的后果 4. **Playbook** - 8 到 10 个以自然语言描述的有序诊断步骤 (按从常见到特定的顺序排列) 5. **诊断** - 使用事件优先方法和条件逻辑模式的带时间窗口的关联分析框架 ### 最佳实践 - **对于 AI Agent**：Playbook 已针对 AI 解释进行优化 - 请使用自然语言指令 - **对于手动使用**：请参阅各分类 README 文件以获取等效的 kubectl/AWS CLI 命令 - **替换占位符**：所有 playbook 均使用占位符 (如 ``、``)，使用时必须替换为实际值 - **遵循顺序**：除非有明确证据指向某一步骤，否则请按顺序执行步骤 - **关联时间戳**：使用“诊断”部分将事件与故障关联起来 - **扩大窗口**：如果初步关联未能揭示原因，请按建议扩大时间窗口 ### 占位符参考 **AWS Playbook：** - ``、``、``、``、``、``、``、``、``、`` **Kubernetes Playbook：** - ``、``、``、``、``、``、``、``、`` **Sentry Playbook：** - ``、``、``、``、``、`` ## 术语与词汇表理解这些 playbook 中使用的术语将帮助您更有效地使用它们。如需详细的词汇表，请参阅： - [AWS 术语](AWS%20Playbooks/README.md#terminology--glossary) - [Kubernetes 术语](K8s%20Playbooks/README.md#terminology--glossary) ### 快速参考 **SRE (Site Reliability Engineering)** - 结合软件工程与运维以构建可靠系统的一门学科。 **Playbook / Runbook** - 用于诊断和解决特定问题的分步指南。 **Incident (事件)** - 中断或降低服务性能、需要立即关注的事件。 **On-Call (值班)** - 在正常工作时间之外随时准备响应事件的工程师。 **MTTR (Mean Time To, 平均恢复时间)** - 发生事件后恢复服务的平均时间。Playbook 有助于降低 MTTR。 **Correlation Analysis (关联分析)** - 通过比较时间戳来查找事件 (如配置更改) 与症状 (如服务故障) 之间的关系。 **Root Cause (根因)** - 导致问题发生的根本原因，而不仅仅是表面症状。 **Placeholder (占位符)** - playbook 中的一个值 (如 ``)，您需要将其替换为实际的资源标识符。 **Diagnosis Section (诊断部分)** - 每份 playbook 的一部分，帮助您使用基于时间的分析将事件与故障关联起来。 ### 常见缩写 - **K8s**：Kubernetes (K + 8 个字母 + s) - **SRE**：Site Reliability Engineering - **MTTR**：Mean Time To Recovery - **API**：Application Programming Interface - **DNS**：Domain Name System - **RBAC**：Role-Based Access Control - **PVC**：PersistentVolumeClaim - **HPA**：Horizontal Pod Autoscaler **有关 AWS 和 Kubernetes 术语的详细解释，请参阅上方相应的 README 文件。** ## 快速参考需要快速备忘单吗？请查看我们的 [快速参考卡片](QUICK_REFERENCE.md) 获取： - 单页概览 - 常用命令 - 快速查找表 - 关键链接 ## 故障排除指南不知道该使用哪份 playbook？请使用我们的 [故障排除决策树](TROUBLESHOOTING_FLOWCHART.md) 来： - 快速定位正确的 playbook - 按问题类型进行导航 - 通过错误消息或告警名称进行查找 ## 示例与用例请在 [EXAMPLES.md](EXAMPLES.md) 中查看真实场景： - 分步示例 - 常用工作流 - 成功案例 - 最佳实践 ## 常见问题有疑问吗？请查看我们的 [常见问题](FAQ.md) 获取以下方面的解答： - 常规问题 - 使用问题 - 技术问题 - 贡献问题 ## 视频教程学习如何有效地使用这些 playbook： - **YouTube 频道**：[@scoutflo6727](https://www.youtube.com/@scoutflo6727) - 订阅以获取教程和演示 - **AI SRE 演示**：[观看演示视频](https://youtu.be/P6xzFUtRqRc?si=0VN9oMV05rNzXFs8) - 观看 Scoutflo AI SRE 的实际运行情况 - **教程**：关于使用 playbook 的分步视频指南 - **最佳实践**：学习 SRE 事件响应的最佳实践 **即将推出**：以下主题的视频教程： - 如何有效地使用 playbook - 常见故障排除场景 - 为 Playbook 做贡献 - 高级关联分析 ## 路线图请查看我们的 [ROADMAP.md](ROADMAP.md) 了解： - 计划的功能和新的 playbook 类别 - 短期和长期目标 - 如何提出新功能建议 - 发布历史 ## 贡献指南我们欢迎社区的贡献！您的贡献有助于让这些 playbook 对所有人变得更好。请查看我们的 [贡献者](CONTRIBUTORS.md) 页面，了解是谁帮助构建了这个项目。 ### 如何贡献 #### 1. 报告问题发现 Bug、指令不清晰或有建议？ 1. **检查现有问题**：先在 [GitHub Issues](https://github.com/Scoutflo/scoutflo-SRE-Playbooks/issues) 中搜索 2. **创建新 Issue**： - 使用清晰、具描述性的标题 - 描述问题或建议 - 包含相关的服务/组件、错误消息或示例 - 打上适当的标签 (`aws-playbook`、`k8s-playbook`、`sentry-playbook`、`bug`、`enhancement` 等) #### 2. 改进现有 Playbook 要修复或增强现有 playbook： 1. **Fork 仓库**：创建您自己的 Fork 2. **创建分支**： git checkout -b fix/playbook-name-improvement 3. **进行更改**： - 遵循已建立的 playbook 结构 - 与现有格式保持一致 - 根据需要更新占位符和示例 4. **测试您的更改**：确保 playbook 准确且有帮助 5. **提交并推送**： git add . git commit -m "Fix: Improve [playbook-name] with [description]" git push origin fix/playbook-name-improvement 6. **创建 Pull Request**： - 清晰地描述所做的更改 - 关联任何相关的 Issue - 请求维护者审查 #### 3. 添加新 Playbook 要针对尚未覆盖的问题添加新 playbook： 1. **检查重复**：确保尚不存在类似的 playbook 2. **遵循结构**：以现有 playbook 为模板 3. **选择正确的位置**： - AWS playbook -> `AWS Playbooks/` - K8s playbook -> `K8s Playbooks/` 中合适的分类文件夹 - Sentry playbook -> `Sentry Playbooks/` 中合适的分类文件夹 4. **遵循命名规范**： - AWS：`-.md` - K8s：`-.md` - Sentry：`-.md` 5. **包含所有部分**：Title、Meaning、Impact、Playbook (8-10 个步骤)、Diagnosis (5 个关联) 6. **更新 README**：将新的 playbook 添加到相应 README 的 playbook 列表中 7. **创建 Pull Request**：遵循标准的贡献流程 ### 贡献规范 - **遵循结构**：与现有的 playbook 保持一致 - **使用占位符**：用占位符替换具体的值 - **具体明确**：提供可操作的、分步的说明 - **包含关联分析**：在“诊断”部分添加基于时间的关联分析 - **彻底测试**：确保 playbook 准确且有帮助 - **记录更改**：清晰地描述您修改了什么以及为什么 ### 审查流程 1. 所有贡献都需要维护者进行审查 2. 反馈将在 2-3 个工作日内提供 3. 及时处理任何要求的更改 4. 一旦获得批准，您的贡献将被合并请查阅 [CONTRIBUTING.md](CONTRIBUTING.md) 获取详细的贡献指南。 ## 联系我们我们很乐意听取您的意见！以下是联系我们最佳的方式： ### 社区渠道 - **Slack 社区**：[加入我们的 Slack 工作区](https://scoutflo.slack.com) 进行实时讨论 - **GitHub Discussions**：[发起讨论](https://github.com/Scoutflo/scoutflo-SRE-Playbooks/discussions) 交流问题和想法 - **GitHub Issues**：[报告 Bug 或请求功能](https://github.com/Scoutflo/scoutflo-SRE-Playbooks/issues) - **LinkedIn**：在 [LinkedIn 上关注 Scoutflo](https://www.linkedin.com/company/scoutflo/) 获取更新和洞察 - **Twitter/X**：关注 [@scout_flo](https://x.com/scout_flo) 获取最新资讯和公告 ### 反馈与功能请求有关于改进或新 playbook 主题的想法吗？ - **GitHub Issues**：提交一个 [功能请求](https://github.com/Scoutflo/scoutflo-SRE-Playbooks/issues/new?template=feature_request.md) - **Slack**：在我们的 `#playbooks` 频道分享您的想法 ### Bug 报告在 playbook 中发现 Bug 或错误了吗？ - **GitHub Issues**：提交一个 [Bug 报告](https://github.com/Scoutflo/scoutflo-SRE-Playbooks/issues/new?template=bug_report.md) - **Slack**：在我们的 `#playbooks` 频道报告以获得快速响应 ### Scoutflo 相关资源 - **官方文档**：[Scoutflo 文档](https://scoutflo-documentation.gitbook.io/scoutflo-documentation) - Scoutflo 平台的完整指南 - **网站**：[scoutflo.com](https://scoutflo.com/) - 了解更多关于 Scoutflo 的信息 - **AI SRE 工具**：[ai.scoutflo.com](https://ai.scoutflo.com/get-started) - 由 AI 驱动的 SRE 助手 - **基础设施管理工具**：[deploy.scoutflo.com](https://deploy.scoutflo.com/) - Kubernetes 部署平台 - **YouTube 频道**：[@scoutflo6727](https://www.youtube.com/@scoutflo6727) - 教程和演示 - **AI SRE 演示**：[观看演示视频](https://youtu.be/P6xzFUtRqRc?si=0VN9oMV05rNzXFs8) - 观看 Scoutflo AI SRE 的实际运行情况 - **博客**：[scoutflo.com/blog](https://scoutflo.com/blog) 和 [blog.scoutflo.com](https://blog.scoutflo.com/) - 最新文章和洞察 - **定价**：[scoutflo.com/pricing](https://scoutflo.com/pricing) - 定价信息 ### 附加资源 - **路线图**：查看我们的 [项目路线图](https://github.com/Scoutflo/scoutflo-SRE-Playbooks/projects) 了解后续规划 - **文档**：访问我们的 [wiki](https://github.com/Scoutflo/scoutflo-SRE-Playbooks/wiki) 获取详细指南 - **法律信息**：[隐私政策](https://blog.scoutflo.com/privacy/) | [服务条款](https://blog.scoutflo.com/terms/) ## 支持需要帮助？请查看我们的 [支持指南](.github/SUPPORT.md) 或： - **问题**：[GitHub Discussions](https://github.com/Scoutflo/scoutflo-SRE-Playbooks/discussions) - **Bug**：[报告问题](https://github.com/Scoutflo/scoutflo-SRE-Playbooks/issues/new?template=bug_report.md) - **功能**：[请求功能](https://github.com/Scoutflo/scoutflo-SRE-Playbooks/issues/new?template=feature_request.md) - **安全**：请参阅 [SECURITY.md](SECURITY.md) ## 相关资源 ### AWS 资源 **官方文档：** - [AWS 文档](https://docs.aws.amazon.com/) - 完整的 AWS 服务文档 - [AWS Well-Architected Framework](https://aws.amazon.com/architecture/well-architected/) - 构建 AWS 架构的最佳实践 - [AWS 故障排除指南](https://docs.aws.amazon.com/general/latest/gr/aws_troubleshooting.html) - 官方故障排除指南 - [AWS Service Health Dashboard](https://status.aws.amazon.com/) - 检查 AWS 服务状态 **学习与最佳实践：** - [AWS 架构中心](https://aws.amazon.com/architecture/) - 参考架构 - [AWS 安全最佳实践](https://aws.amazon.com/security/security-resources/) - 安全指南 - [AWS re:Post](https://repost.aws/) - AWS 社区问答 - [AWS 培训](https://aws.amazon.com/training/) - 免费和付费培训课程 **工具与实用程序：** - [AWS CLI 文档](https://docs.aws.amazon.com/cli/latest/userguide/) - 命令行界面 - [AWS CloudShell](https://aws.amazon.com/cloudshell/) - 基于浏览器的 Shell - [AWS Systems Manager](https://docs.aws.amazon.com/systems-manager/) - 运营管理 - [AWS CloudWatch](https://docs.aws.amazon.com/cloudwatch/) - 监控与可观测性 ### Kubernetes 资源 **官方文档：** - [Kubernetes 文档](https://kubernetes.io/docs/) - 完整的 Kubernetes 文档 - [kubectl 备忘单](https://kubernetes.io/docs/reference/kubectl/cheatsheet/) - 快速命令参考 - [Kubernetes 故障排除](https://kubernetes.io/docs/tasks/debug/) - 官方故障排除指南 - [Kubernetes API 参考](https://kubernetes.io/docs/reference/kubernetes-api/) - API 文档 **学习与最佳实践：** - [Kubernetes 最佳实践](https://kubernetes.io/docs/concepts/cluster-administration/) - 集群管理 - [Kubernetes 安全最佳实践](https://kubernetes.io/docs/concepts/security/) - 安全指南 - [CNCF Cloud Native Trail Map](https://github.com/cncf/trailmap) - 学习路径 - [Kubernetes.io 博客](https://kubernetes.io/blog/) - 最新更新和教程 **工具与实用程序：** - [k9s](https://k9scli.io/) - Kubernetes 的终端 UI - [Lens](https://k8slens.dev/) - Kubernetes IDE - [Helm](https://helm.sh/) - Kubernetes 包管理器 - [kubectx & kubens](https://github.com/ahmetb/kubectx) - 上下文和命名空间切换 **社区资源：** - [Kubernetes Slack](https://slack.k8s.io/) - 社区聊天 - [Stack Overflow - Kubernetes](https://stackoverflow.com/questions/tagged/kubernetes) - 问答 - [r/kubernetes](https://www.reddit.com/r/kubernetes/) - Reddit 社区 - [Kubernetes 论坛](https://discuss.kubernetes.io/) - 讨论论坛 ### SRE 资源 **书籍与指南：** - [Google SRE 书籍](https://sre.google/books/) - Site Reliability Engineering 书籍 - [Site Reliability Engineering](https://sre.google/sre-book/table-of-contents/) - SRE 实践 - [The Site Reliability Workbook](https://sre.google/workbook/table-of-contents/) - 实用 SRE 指南 - [构建安全可靠的系统](https://sre.google/books/building-secure-reliable-systems/) - 安全性与可靠性 **学习资源：** - [SRE 基础课程](https://www.cncf.io/certification/training/) - CNCF 培训 - [SRE Weekly](https://sreweekly.com/) - 每周通讯 - [SREcon](https://www.usenix.org/conferences/byname/srecon) - SRE 会议 - [事件响应指南](https://response.pagerduty.com/) - PagerDuty 的事件响应指南 **工具与平台：** - [Prometheus](https://prometheus.io/) - 监控和告警 - [Grafana](https://grafana.com/) - 可视化和仪表板 - [Jaeger](https://www.jaegertracing.io/) - 分布式追踪 - [ELK Stack]() - 日志和分析 ### 事件响应与操作手册 (Runbook) **Runbook 资源：** - [PagerDuty 事件响应](https://response.pagerduty.com/) - 事件响应最佳实践 - [Atlassian 事件管理](https://www.atlassian.com/incident-management) - 事件管理指南 - [GitLab Runbook](https://about.gitlab.com/handbook/engineering/infrastructure/runbooks/) - Runbook 示例 - [Google 的 SRE Runbook 模板](https://sre.google/workbook/runbooks/) - Runbook 结构 **事件管理：** - [Incident.io](https://incident.io/) - 事件管理平台 - [FireHydrant](https://www.firehydrant.com/) - 事件响应平台 - [Statuspage](https://www.statuspage.io/) - 状态页面管理 ### 社区与论坛 **综合 DevOps：** - [DevOps Reddit](https://www.reddit.com/r/devops/) - DevOps 社区 - [DevOps Stack Exchange](https://devops.stackexchange.com/) - 问答平台 - [HashiCorp Learn](https://learn.hashicorp.com/) - 基础设施教程 **云原生 (Cloud Native)：** - [CNCF 资源](https://www.cncf.io/) - Cloud Native Computing Foundation - [Cloud Native Landscape](https://landscape.cncf.io/) - CNCF 项目全景图 - [CNCF 网络研讨会](https://www.cncf.io/webinars/) - 教育类网络研讨会 ## 统计信息 - **Playbook 总数**：376 - AWS：157 份 playbook (92 份反应式 + 65 份主动式) - Kubernetes：194 份 playbook (138 份反应式 + 56 份主动式) - Sentry：25 份 playbook - **覆盖范围**：主要的 AWS 服务、Kubernetes 组件和 Sentry 监控 - **格式**：具有结构化章节的 Markdown - **语言**：英语 - **社区**：开源、社区驱动 ## License 本项目基于 MIT License 授权 - 有关详细信息，请参阅 [LICENSE](LICENSE) 文件。 ## 维护者本项目的维护者为： - [@AtharvaBondreScoutflo](https://github.com/AtharvaBondreScoutflo) - [@Vedant-Vyawahare](https://github.com/Vedant-Vyawahare) 有关维护者信息，请参阅 [MAINTAINERS.md](MAINTAINERS.md)。 ## 鸣谢 - **贡献者**：感谢所有帮助改进这些 playbook 的贡献者 - **社区**：感谢 SRE 社区分享知识和最佳实践 - **组织**：在生产环境中使用这些 playbook 的公司和团队 **由 SRE 社区倾注爱心为 SRE 社区打造** 如果这些 playbook 对您有帮助，请考虑在 GitHub 上给我们点个 Star！

标签：AWS, DPI, SRE, 事故响应, 偏差过滤, 子域名突变, 故障排查, 最佳实践, 漏洞利用检测, 运维, 防御加固