Harshithj88/sre-devops-handbook

GitHub: Harshithj88/sre-devops-handbook

一个实用的开源SRE/DevOps手册,提供检查清单、运维手册和架构图,帮助团队提升云服务可靠性和运维效率。

Stars: 0 | Forks: 0

# SRE / DevOps 手册 ![仓库状态](https://img.shields.io/badge/status-active-brightgreen) ![关注重点](https://img.shields.io/badge/focus-SRE%20%7C%20DevOps%20%7C%20Kubernetes-blue) ![文档](https://img.shields.io/badge/docs-runbooks%20%7C%20checklists%20%7C%20cheatsheets-lightgrey) ![许可证](https://img.shields.io/badge/license-MIT-green) 一份实用的、开源的 SRE 和 DevOps 手册,包含生产就绪检查清单、故障排查运维手册、速查表、架构图、事件响应模板、自动化脚本以及精选的学习资源。 ## 目录 - [仓库结构](#repository-structure) - [检查清单](#checklists) - [速查表](#cheat-sheets) - [运维手册](#runbooks) - [架构](#architecture) - [文档](#documentation) - [模板](#templates) - [脚本](#scripts) - [资源](#resources) - [涵盖主题](#topics-covered) - [贡献指南](#contributing) - [许可证](#license) ## 仓库结构 | 文件夹 | 用途 | |---|---| | [`checklists/`](checklists/) | 生产就绪、部署、Kubernetes 和事件响应检查清单 | | [`cheatsheets/`](cheatsheets/) | kubectl、Git、Azure CLI、Docker、PowerShell 和 PromQL 的快速命令参考 | | [`runbooks/`](runbooks/) | 针对常见生产问题的分步排查指南 | | [`architecture/`](architecture/) | 架构图和设计文档 (Mermaid) | | [`docs/`](docs/) | SRE/DevOps 概念、最佳实践和策略指南 | | [`resources/`](resources/) | 官方文档链接和学习路径 | | [`templates/`](templates/) | 用于运维手册、事后复盘和变更请求的可复用模板 | | [`scripts/`](scripts/) | 用于运维任务的 PowerShell 自动化脚本 | ## 检查清单 - [SRE 就绪检查清单](checklists/sre-readiness-checklist.md) — 服务所有权、可靠性、可观测性、安全性 - [生产部署检查清单](checklists/production-deployment-checklist.md) — 部署前/后的验证 - [Kubernetes 生产检查清单](checklists/kubernetes-production-checklist.md) — 工作负载配置、安全性、可用性 - [事件响应检查清单](checklists/incident-response-checklist.md) — 从检测到事后复盘的全过程 ## 速查表 - [kubectl](cheatsheets/kubectl-cheatsheet.md) — pods、deployments、services、events、故障排查、RBAC - [Git](cheatsheets/git-cheatsheet.md) — 分支管理、合并、变基、暂存、撤销更改 - [Azure CLI](cheatsheets/azure-cli-cheatsheet.md) — AKS、ACR、Key Vault、VMs、网络、监控 - [Docker](cheatsheets/docker-cheatsheet.md) — 镜像、容器、compose、网络、清理 - [PowerShell DevOps](cheatsheets/powershell-devops-cheatsheet.md) — IIS、证书、REST APIs、远程管理 - [Prometheus / PromQL](cheatsheets/prometheus-promql-cheatsheet.md) — 查询、聚合、告警规则 ## 运维手册 - [应用程序宕机](runbooks/application-down.md) — 诊断并解决完全的服务中断 - [Pod CrashLoopBackOff](runbooks/pod-crashloopbackoff.md) — 排查 Kubernetes Pod 重启循环问题 - [高 CPU / 内存](runbooks/high-cpu-memory.md) — 调查并解决资源耗尽问题 - [磁盘空间问题](runbooks/disk-space-issue.md) — 识别并清理磁盘空间问题 - [证书过期](runbooks/certificate-expiry.md) — 检测并续订即将过期的 TLS 证书 - [部署回滚](runbooks/deployment-rollback.md) — 安全地回滚有问题的部署 ## 架构 - [AKS 平台架构](architecture/aks-platform-architecture.md) — 包含网络、安全性和可观测性的参考 AKS 架构 - [CI/CD 架构](architecture/cicd-architecture.md) — 包含质量门和回滚策略的流水线流程 - [可观测性架构](architecture/observability-architecture.md) — 指标、日志、链路追踪和告警堆栈 所有图表均使用 [Mermaid](https://mermaid.js.org/) 实现原生 GitHub 渲染——无需外部工具。 ## 文档 - [SLO、SLI 和错误预算指南](docs/slo-sli-error-budget.md) — 使用错误预算策略定义可靠性目标 - [监控与告警策略](docs/monitoring-alerting-strategy.md) — USE、RED、黄金信号、告警设计 - [事件管理](docs/incident-management.md) — 生命周期、严重级别、角色、沟通 - [变更管理](docs/change-management.md) — 变更类型、风险评估、审批流程 - [DevOps 最佳实践](docs/devops-best-practices.md) — CI/CD、IaC、DORA 指标、DevSecOps ## 模板 - [事后复盘模板](templates/postmortem-template.md) — 无指责的事后复盘格式 - [运维手册模板](templates/runbook-template.md) — 标准运维手册结构 - [变更请求模板](templates/change-request-template.md) — 包含风险评估的变更请求 ## 脚本 - [Check-ServiceHealth.ps1](scripts/powershell/Check-ServiceHealth.ps1) — 服务端点的 HTTP 健康检查 - [Check-CertificateExpiry.ps1](scripts/powershell/Check-CertificateExpiry.ps1) — 扫描本地证书以检测即将过期项 - [Get-DiskSpaceReport.ps1](scripts/powershell/Get-DiskSpaceReport.ps1) — 带阈值告警的磁盘使用报告 ## 资源 - [官方文档链接](resources/official-documentation-links.md) — 精选的 Azure、Kubernetes、Prometheus 等链接 - [学习路径](resources/learning-path.md) — 从初级到高级的进阶路径,包含书籍和认证 ## 涵盖主题 `SRE` `DevOps` `Kubernetes` `AKS` `CI/CD` `GitHub Actions` `Azure DevOps` `Infrastructure as Code` `Bicep` `Observability` `Prometheus` `Grafana` `OpenTelemetry` `Monitoring` `Alerting` `Incident Response` `Change Management` `PowerShell` `Production Readiness` `Postmortems` `SLOs` `SLIs` `Error Budgets` ## 许可证 本项目采用 MIT 许可证。详情请参阅 [LICENSE](LICENSE)。 ## 推荐阅读 - [Google SRE 书籍](https://sre.google/books/) - [Microsoft Azure 良好架构框架](https://learn.microsoft.com/en-us/azure/well-architected/) - [Kubernetes 文档](https://kubernetes.io/docs/) - [Prometheus 文档](https://prometheus.io/docs/) - [Grafana 文档](https://grafana.com/docs/) - [OpenTelemetry 文档](https://opentelemetry.io/docs/) - [CNCF 云原生全景图](https://landscape.cncf.io/) - [凤凰项目](https://itrevolution.com/the-phoenix-project/) - [加速](https://itrevolution.com/accelerate-book/)
标签:AI合规, Azure CLI, Docker, Git, IPv6, Libemu, NIDS, PowerShell, PromQL, SRE, 云服务, 偏差过滤, 可靠性工程, 备忘单, 子域名突变, 安全防御评估, 实用指南, 容器化, 开源, 开源框架, 手册, 持续部署, 持续集成, 指南, 故障排除, 数字取证, 文档, 最佳实践, 架构图, 检查清单, 模板, 用户代理, 监控, 脚本自动化, 自动化脚本, 自定义请求头, 警报, 请求拦截, 资源管理, 运维, 运行手册