narayanraj/kubernetes-operations-playbook

GitHub: narayanraj/kubernetes-operations-playbook

面向生产环境的 Kubernetes 运维手册,提供系统化的故障排查流程、运维操作规范和事件响应指南。

Stars: 0 | Forks: 0

# Kubernetes 运维手册 ## 摘要 本仓库记录了实用的 Kubernetes 运维流程、故障排查技巧以及生产环境支持工作流。 许多 Kubernetes 仓库主要侧重于部署示例,而本仓库则专注于在生产环境中运维和支持 Kubernetes 工作负载。 我们的目标是提供一套系统化的方法,用于诊断、排查和解决常见的 Kubernetes 故障事件。 ## 涵盖主题 ### Kubernetes 核心概念 * Pod 生命周期 * Services * Ingress * ConfigMaps * Secrets * 持久化卷 ### 故障排查 * CrashLoopBackOff * ImagePullBackOff * OOMKilled * Pending Pod * DNS 故障 * Ingress 问题 ### 运维操作 * 集群升级 * 节点维护 * 备份与恢复 * 事件响应 ### 监控 * Prometheus * Grafana * 告警 ## 目标受众 * DevOps 工程师 * 平台工程师 * 站点可靠性工程师 * Kubernetes 管理员 本内容基于实际的故障排查工作流,而非理论概念。
标签:SRE, 偏差过滤, 子域名突变, 故障排查, 自定义请求头, 运维, 运维手册