Akashkayande/SRE-Playbooks

GitHub: Akashkayande/SRE-Playbooks

一套包含250余份标准化事件响应手册的开源运维知识库,帮助SRE系统化诊断和解决AWS与Kubernetes中的常见故障。

Stars: 0 | Forks: 0

# SRE Playbooks 仓库 [![许可证](https://img.shields.io/badge/license-MIT-blue.svg)](LICENSE) ## 概述 本仓库包含 **250+ 份全面的事件响应 playbook**,旨在帮助 Site Reliability Engineers (SRE) 系统地诊断和解决 AWS 和 Kubernetes 中常见的基础设施与应用程序问题。 ### 为什么选择本仓库? - **系统化方法**:每份 playbook 都遵循一致的结构,并带有清晰的诊断步骤 - **节省时间**:通过关联分析框架快速定位根本原因 - **社区驱动**:由开源社区持续改进 - **生产环境就绪**:基于真实世界的事件响应场景 - **全面覆盖**:232 份 Kubernetes playbook + 157 份 AWS playbook + 25 份 Sentry playbook - **主动监控**:56 份 K8s + 65 份 AWS 主动 playbook,用于容量规划和合规性检查 ### 诊断改进 所有 playbook 均采用 **事件优先** 的方法进行根本原因分析: - 诊断部分优先检查近期事件和变更,然后再深入分析配置详情 - 条件逻辑模式有助于根据观察到的症状缩小原因范围 - 基于时间的关联分析将事件与故障进行系统性关联 ### 使用场景 - **事件期间**:快速参考以排查常见问题 - **值班轮换**:值班工程师必备的 runbook 集合 - **知识共享**:在团队中标准化故障排查流程 - **培训**:学习系统化的事件响应方法论 - **文档记录**:构建您自己的 runbook 库 ## 仓库结构 ``` SRE-Playbooks/ ├── AWS Playbooks/ │ ├── 01-Compute/ # 15 playbooks (EC2, Lambda, EKS) │ ├── 02-Database/ # 8 playbooks (RDS, DynamoDB) │ ├── 03-Storage/ # 7 playbooks (S3) │ ├── 04-Networking/ # 12 playbooks (VPC, ELB, Route53) │ ├── 05-Security/ # 10 playbooks (IAM, KMS, GuardDuty) │ ├── 06-Monitoring/ # 8 playbooks (CloudTrail, CloudWatch) │ └── README.md ├── K8s Playbooks/ │ ├── 01-Nodes/ # 19 playbooks │ ├── 02-Pods/ # 29 playbooks │ ├── 03-Workloads/ # 19 playbooks │ ├── 04-Networking/ # 16 playbooks │ ├── 05-Storage/ # 6 playbooks │ ├── 06-RBAC/ # 4 playbooks │ ├── 07-Configuration/ # 4 playbooks │ ├── 08-Resource-Management/ # 7 playbooks │ ├── 9-Monitoring-Autoscaling/ # 3 playbooks │ └── README.md └── README.md ``` ## 内容 ### AWS Playbooks (`AWS Playbooks/`) - **计算服务**(15 份 playbook):EC2、Lambda、ECS、EKS - **数据库**(8 份 playbook):RDS、DynamoDB - **存储**(7 份 playbook):S3 - **网络**(12 份 playbook):VPC、ELB、Route 53、NAT Gateway - **安全**(10 份 playbook):IAM、KMS、GuardDuty、CloudTrail - **监控**(8 份 playbook):CloudTrail、CloudWatch **关键主题:** - 连接超时和网络问题 - 访问拒绝和权限问题 - 资源不可用和容量问题 - 安全违规和威胁检测 - 服务集成故障 - 主动容量与合规性监控 ### Kubernetes Playbooks (`K8s Playbooks/`) **文件夹结构:** - `01-Nodes/`(12 份 playbook)- Node 就绪状态、kubelet 问题、资源限制 - `02-Pods/`(31 份 playbook)- 调度、生命周期、健康检查、资源限制 - `03-Workloads/`(23 份 playbook)- Deployments、StatefulSets、DaemonSets、Jobs、HPA - `04-Networking/`(19 份 playbook)- Services、Ingress、DNS、Network Policies、kube-proxy - `05-Storage/`(9 份 playbook)- PersistentVolumes、PersistentVolumeClaims、StorageClasses - `06-RBAC/`(6 份 playbook)- ServiceAccounts、Roles、RoleBindings、授权 - `07-Configuration/`(6 份 playbook)- ConfigMaps 和 Secrets 访问问题 - `08-Resource-Management/`(8 份 playbook)- Resource Quotas、超售、计算资源 - `09-Monitoring-Autoscaling/`(3 份 playbook)- Metrics Server、Cluster Autoscaler **关键主题:** - Pod 生命周期问题(CrashLoopBackOff、Pending、Terminating) - 控制平面组件故障 - 网络连接和 DNS 解析 - 存储和卷挂载问题 - RBAC 和权限错误 - 资源配额和容量限制 - 主动容量与合规性监控
标签:AWS, DPI, SRE, 偏差过滤, 子域名突变, 属性图, 库, 应急响应, 故障排查, 漏洞利用检测, 运维, 运维手册, 防御加固