Akashkayande/SRE-Playbooks
GitHub: Akashkayande/SRE-Playbooks
一套包含250余份标准化事件响应手册的开源运维知识库,帮助SRE系统化诊断和解决AWS与Kubernetes中的常见故障。
Stars: 0 | Forks: 0
# SRE Playbooks 仓库
[](LICENSE)
## 概述
本仓库包含 **250+ 份全面的事件响应 playbook**,旨在帮助 Site Reliability Engineers (SRE) 系统地诊断和解决 AWS 和 Kubernetes 中常见的基础设施与应用程序问题。
### 为什么选择本仓库?
- **系统化方法**:每份 playbook 都遵循一致的结构,并带有清晰的诊断步骤
- **节省时间**:通过关联分析框架快速定位根本原因
- **社区驱动**:由开源社区持续改进
- **生产环境就绪**:基于真实世界的事件响应场景
- **全面覆盖**:232 份 Kubernetes playbook + 157 份 AWS playbook + 25 份 Sentry playbook
- **主动监控**:56 份 K8s + 65 份 AWS 主动 playbook,用于容量规划和合规性检查
### 诊断改进
所有 playbook 均采用 **事件优先** 的方法进行根本原因分析:
- 诊断部分优先检查近期事件和变更,然后再深入分析配置详情
- 条件逻辑模式有助于根据观察到的症状缩小原因范围
- 基于时间的关联分析将事件与故障进行系统性关联
### 使用场景
- **事件期间**:快速参考以排查常见问题
- **值班轮换**:值班工程师必备的 runbook 集合
- **知识共享**:在团队中标准化故障排查流程
- **培训**:学习系统化的事件响应方法论
- **文档记录**:构建您自己的 runbook 库
## 仓库结构
```
SRE-Playbooks/
├── AWS Playbooks/
│ ├── 01-Compute/ # 15 playbooks (EC2, Lambda, EKS)
│ ├── 02-Database/ # 8 playbooks (RDS, DynamoDB)
│ ├── 03-Storage/ # 7 playbooks (S3)
│ ├── 04-Networking/ # 12 playbooks (VPC, ELB, Route53)
│ ├── 05-Security/ # 10 playbooks (IAM, KMS, GuardDuty)
│ ├── 06-Monitoring/ # 8 playbooks (CloudTrail, CloudWatch)
│ └── README.md
├── K8s Playbooks/
│ ├── 01-Nodes/ # 19 playbooks
│ ├── 02-Pods/ # 29 playbooks
│ ├── 03-Workloads/ # 19 playbooks
│ ├── 04-Networking/ # 16 playbooks
│ ├── 05-Storage/ # 6 playbooks
│ ├── 06-RBAC/ # 4 playbooks
│ ├── 07-Configuration/ # 4 playbooks
│ ├── 08-Resource-Management/ # 7 playbooks
│ ├── 9-Monitoring-Autoscaling/ # 3 playbooks
│ └── README.md
└── README.md
```
## 内容
### AWS Playbooks (`AWS Playbooks/`)
- **计算服务**(15 份 playbook):EC2、Lambda、ECS、EKS
- **数据库**(8 份 playbook):RDS、DynamoDB
- **存储**(7 份 playbook):S3
- **网络**(12 份 playbook):VPC、ELB、Route 53、NAT Gateway
- **安全**(10 份 playbook):IAM、KMS、GuardDuty、CloudTrail
- **监控**(8 份 playbook):CloudTrail、CloudWatch
**关键主题:**
- 连接超时和网络问题
- 访问拒绝和权限问题
- 资源不可用和容量问题
- 安全违规和威胁检测
- 服务集成故障
- 主动容量与合规性监控
### Kubernetes Playbooks (`K8s Playbooks/`)
**文件夹结构:**
- `01-Nodes/`(12 份 playbook)- Node 就绪状态、kubelet 问题、资源限制
- `02-Pods/`(31 份 playbook)- 调度、生命周期、健康检查、资源限制
- `03-Workloads/`(23 份 playbook)- Deployments、StatefulSets、DaemonSets、Jobs、HPA
- `04-Networking/`(19 份 playbook)- Services、Ingress、DNS、Network Policies、kube-proxy
- `05-Storage/`(9 份 playbook)- PersistentVolumes、PersistentVolumeClaims、StorageClasses
- `06-RBAC/`(6 份 playbook)- ServiceAccounts、Roles、RoleBindings、授权
- `07-Configuration/`(6 份 playbook)- ConfigMaps 和 Secrets 访问问题
- `08-Resource-Management/`(8 份 playbook)- Resource Quotas、超售、计算资源
- `09-Monitoring-Autoscaling/`(3 份 playbook)- Metrics Server、Cluster Autoscaler
**关键主题:**
- Pod 生命周期问题(CrashLoopBackOff、Pending、Terminating)
- 控制平面组件故障
- 网络连接和 DNS 解析
- 存储和卷挂载问题
- RBAC 和权限错误
- 资源配额和容量限制
- 主动容量与合规性监控
标签:AWS, DPI, SRE, 偏差过滤, 子域名突变, 属性图, 库, 应急响应, 故障排查, 漏洞利用检测, 运维, 运维手册, 防御加固