mj006648/netai-devsecops-runbook

GitHub: mj006648/netai-devsecops-runbook

NetAI Lab 数据湖仓集群的运维手册,集中记录 Kubernetes 升级、网络排查、存储恢复、策略治理及故障 postmortem 等生产环境运维实践。

Stars: 0 | Forks: 0

# NetAI 运维手册 这是在 [GIST NetAI Lab](https://netai.smartx.kr/) 运营 **TwinX** 和 **MiniX** 集群过程中积累的运维手册。 本仓库将网络、存储、策略、可观测性、应用、Kubernetes 运维以及故障响应记录集中整理在一个地方。 ## 快速导航 此表用于快速查找最近或重要的运维问题。`Last update` 是指相应文档的最近更新日期。 | Last update | Area | Issue / note | Contents | | --- | --- | --- | --- | | 2026-06-26 | Kubernetes / Karmada | [Karmada ScaleX-POD Lab](kubernetes/karmada/) | MiniX kind 基础的 Karmada 实验 00~14,OverridePolicy image/storageClass,Resource Pool fallback,NoExecute failover,WorkloadRebalancer 重新均衡 | | 2026-06-26 | Kubernetes / Upgrade | [TwinX Kubernetes Upgrade Run 2026-06-26](kubernetes/upgrades/twinx-kubernetes-upgrade-run-2026-06-26.md) | 当天 preflight 结果,OTP 临时解除,Harbor/Ceph/Partridge/Kubespray blocker,缩减的第一波 wave | | 2026-06-25 | Kubernetes / Upgrade | [TwinX Kubernetes 1.35 Upgrade Plan](kubernetes/upgrades/twinx-kubernetes-1-35-upgrade-plan.md) | TwinX Kubespray `1.33 -> 1.35.4` 计划,Ceph/Harbor/Partridge/l40s blocker,Hubble/DRA 应用顺序 | | 2026-06-25 | Incident | [MiniX Kubespray Upgrade Troubleshooting](incidents/minix-kubespray-upgrade-2026-06-25.md) | Cilium 权限,kubeadm health-check 超时,Rook-Ceph PDB drain 阻塞,CoreDNS 循环,GPU node API 超时 | | 2026-06-25 | Incident | [Cluster Cascade](incidents/cluster-cascade.md) | 由 OTel、Cilium hostNetwork、Rook-Ceph 重建引发的连锁故障总结 | | 2026-06-25 | Networking | [rm352 Pod Communication](networking/rm352-pod-comms.md) | rm352 GPU Operator 失败,kubelet 断连,pod-to-node/API 通信问题的原因与解决 | | 2026-06-25 | Networking | [MTU / Cilium Instability](networking/mtu-cilium.md) | MTU 不一致导致的 OSD flapping 与集群不稳定 | | 2026-06-25 | Networking | [Netplan Secondary IP](networking/netplan-secondary-ip.md) | 添加 secondary IP 后节点变为 NotReady 的问题 | | 2026-06-25 | Storage | [Rook-Ceph Reinstall](storage/rook-ceph-reinstall.md) | Rook-Ceph 全面重装与分阶段启动 (bring-up) 步骤 | | 2026-06-25 | Storage | [LV Preparation](storage/lv-preparation.md) | 重启后 Ceph OSD 无法启动的 stale LVM PV 问题 | | 2026-06-25 | Policy | [Kyverno + cert-manager](policy/kyverno-cert-manager.md) | Kyverno chart v3.7.x 中证书 ping-pong 反复出现的问题 | | 2026-06-25 | Policy | [Webhook Cert SIGTERM](policy/webhook-cert-sigterm.md) | webhook controller 因证书 owner 冲突而周期性 SIGTERM 重启的问题 | | 2026-06-25 | Kubernetes / Study | [Kubernetes Study Guides](kubernetes/study/) | DRA, Gateway API, PV/PVC, ServiceAccount/RBAC 学习笔记 | ## 章节 - **[kubernetes/](kubernetes/)** — Kubernetes 运维计划与学习文档 - **[kubernetes/karmada/](kubernetes/karmada/)** — ScaleX-POD Karmada 多集群实验与运维 runbook - **[kubernetes/upgrades/](kubernetes/upgrades/)** — Kubespray 升级,Hubble,DRA 应用计划 - **[kubernetes/study/](kubernetes/study/)** — DRA, Gateway API, PV/PVC, RBAC 等学习用整理 - **[networking/](networking/)** — netplan, Cilium, MTU, secondary IP,节点路由 - **[storage/](storage/)** — Rook-Ceph 安装·恢复·调优,LVM 准备 - **[policy/](policy/)** — Kyverno, cert-manager, webhook 生命周期 - **[observability/](observability/)** — Prometheus, Grafana, OpenTelemetry - **[apps/](apps/)** — TwinX/MiniX 应用,门户,目录服务,查询引擎 - **[incidents/](incidents/)** — 故障响应记录与 postmortem ## 笔记格式 每篇笔记均按照以下格式编写。 - **Symptom** — 实际观测到的现象 - **Diagnosis** — 用于排查的确切命令 - **Root cause** — 发生原因 - **Fix** — 恢复步骤 - **Prevention** — 下次避免出现相同问题的方法 ## 讨论 在整理为正式文档之前的提问或笔记,请留在 [讨论区](https://github.com/mj006648/netai-devsecops-runbook/discussions)。 ## 许可证 本仓库基于 [MIT License](LICENSE) 授权。
标签:API令, 子域名突变, 存储运维, 故障排查, 数据湖仓, 用户代理, 网络工程, 自定义请求头, 运维手册