narayanraj/kubernetes-operations-playbook
GitHub: narayanraj/kubernetes-operations-playbook
面向生产环境的 Kubernetes 运维手册,提供系统化的故障排查流程、运维操作规范和事件响应指南。
Stars: 0 | Forks: 0
# Kubernetes 运维手册
## 摘要
本仓库记录了实用的 Kubernetes 运维流程、故障排查技巧以及生产环境支持工作流。
许多 Kubernetes 仓库主要侧重于部署示例,而本仓库则专注于在生产环境中运维和支持 Kubernetes 工作负载。
我们的目标是提供一套系统化的方法,用于诊断、排查和解决常见的 Kubernetes 故障事件。
## 涵盖主题
### Kubernetes 核心概念
* Pod 生命周期
* Services
* Ingress
* ConfigMaps
* Secrets
* 持久化卷
### 故障排查
* CrashLoopBackOff
* ImagePullBackOff
* OOMKilled
* Pending Pod
* DNS 故障
* Ingress 问题
### 运维操作
* 集群升级
* 节点维护
* 备份与恢复
* 事件响应
### 监控
* Prometheus
* Grafana
* 告警
## 目标受众
* DevOps 工程师
* 平台工程师
* 站点可靠性工程师
* Kubernetes 管理员
本内容基于实际的故障排查工作流,而非理论概念。
标签:SRE, 偏差过滤, 子域名突变, 故障排查, 自定义请求头, 运维, 运维手册