Kuldeep2822k/devops-mastery-curriculum
GitHub: Kuldeep2822k/devops-mastery-curriculum
一套从零到Staff Engineer级别的生产级DevOps学习课程体系,通过25个模块的实操实验、故障演练和证据产出,帮助学习者系统掌握容器编排、CI/CD、SRE和平台工程等核心能力。
Stars: 2 | Forks: 0
# DevOps 从零到专家:完整的本地优先 + 云就绪进阶指南
一个生产级、本地优先的学习系统,用于构建真正的实操能力:交付系统、生产运维、高压下的应急响应、可靠性工程、安全/供应链规范,以及专家级的权衡思考。
本仓库旨在像工程项目一样被使用:你将产出证据、执行演练、编写运行手册,并练习安全的回滚与验证。
## 这里的“能力”意味着什么
你将在完成每个模块时产出如下证据:
- 你能够在本地构建、破坏并修复系统(可重复)。
- 你能够解释故障:从症状 → 诊断命令 → 根本原因 → 修复 → 预防。
- 你能够编写可供其他工程师执行的 Runbook 和决策记录 (ADR)。
- 你能够参与值班演练(有时间限制),并产出事件日志和后续跟进事项。
## 开始使用
```
git clone https://github.com/Kuldeep2822k/devops-mastery-curriculum.git devops-staff-guide
cd devops-staff-guide
```
- 从这里开始:[ROADMAP.md](ROADMAP.md)
- 阅读运作模式:[00-how-to-use.md](00-HOW-TO-USE/00-how-to-use.md)
- 初始化工具:[SETUP/00-overview.md](SETUP/00-overview.md)
- 选择一个日程表:[SCHEDULES/](SCHEDULES/)
## 本地优先,云就绪
核心实验使用安全、可复用的基础组件在本地运行:
- Containers: Docker
- Kubernetes: kind 或 minikube
- IaC: Terraform/OpenTofu(本地优先工作流;云扩展可选)
- CI: 本地流水线模拟 + GitHub Actions 风格的约定
- 可观测性: 本地信号 (日志 + 指标) 以及可选的扩展技术栈
云的使用是可选的,并且始终局限于:
- 每个模块的 `cloud-extension-lab.md`
- [APPENDICES/](APPENDICES/) 下的提供商映射和说明
每个云扩展都包含成本控制和清理指南。在没有阅读 [03-lab-safety-cost-control.md](00-HOW-TO-USE/03-lab-safety-cost-control.md) 之前,请勿运行云实验。
## 仓库布局
- 核心导航:
- 路线图与进度:[ROADMAP.md](ROADMAP.md)
- 使用说明:[00-HOW-TO-USE/](00-HOW-TO-USE/)
- 设置/工具:[SETUP/](SETUP/)
- 课程体系:
- 模块 (01–25):[MODULES/](MODULES/)
- 故障排除目录:[TROUBLESHOOTING_CATALOG/](TROUBLESHOOTING_CATALOG/)
- 备忘单:[CHEATSHEETS/](CHEATSHEETS/)
- 个人作品集:
- 项目 (01–10):[PROJECTS/00-overview.md](PROJECTS/00-overview.md)
- 毕业项目 (01–04):[CAPSTONES/00-overview.md](CAPSTONES/00-overview.md)
- 面试准备:
- 面试演练:[INTERVIEW_DRILLS/](INTERVIEW_DRILLS/)
- 进度追踪:
- 进度模板:[PROGRESS/](PROGRESS/)
## 你产出的证据
- 完成的 checklist.md (完成的定义)
- 基于 rubric.md 的自评 (每项技能 0–4 分)
- 来自 review-questions.md 的笔记
- 考核提交 (运行的命令 + 输出 + 推理过程)
- Runbook 草稿 + ADR 草稿 (即使对于“简单”的模块也是如此)
- 值班演练的 Postmortem + 后续跟进事项
证据指南:[04-evidence-rubrics.md](00-HOW-TO-USE/04-evidence-rubrics.md)
## 如何学习一个模块
每个模块都是一个完整的微型课程,包含:
- 概述 + 概念课程 (`01-*.md`, `02-*.md`, …)
- 可运行的实验 (`lab-*.md`),包含严格的章节:目标/前置条件/设置/步骤/验证/清理/故障排除
- 评估产物 (核对清单、评分标准、复习问题、考核)
- 故障排除练习 (`troubleshooting.md` 和 `troubleshooting-lab.md`)
## 安全与安保规则(不可妥协)
- 绝对不要将机密信息粘贴到终端、文件、截图或日志中。
- 优先使用短期凭证和 Workload Identity 模式。
- 使用最小权限原则;设计时考虑撤销机制。
- 将构建产物视为供应链输入:在可行的情况下确保来源、SBOM 和签名。
- 始终包含清理步骤并验证资源已删除。
安全与成本控制:[03-lab-safety-cost-control.md](00-HOW-TO-USE/03-lab-safety-cost-control.md)
## 推荐的学习进程
选择一个日程表并遵循它:
- [SCHEDULES/30-day-boot.md](SCHEDULES/30-day-boot.md)
- [SCHEDULES/90-day-deep.md](SCHEDULES/90-day-deep.md)
- [SCHEDULES/180-day-staff.md](SCHEDULES/180-day-staff.md)
- [SCHEDULES/365-day-mastery.md](SCHEDULES/365-day-mastery.md)
## QA
- QA 检查表:[QA_AUDIT.md](QA_AUDIT.md)
- 自我审计报告模板:[QA_SELF_AUDIT_REPORT.md](QA_SELF_AUDIT_REPORT.md)
- 为什么本指南使用小型 Python 工具:[WHY_PY_TOOLS.md](WHY_PY_TOOLS.md)
## 生成文件清单
在 [GENERATED_FILES_MANIFEST.md](GENERATED_FILES_MANIFEST.md) 中追踪生成的内容和仓库状态。
标签:API集成, DevOps工程师培训, DevSecOps, DNS解析, Docker, EC2, ECS, GitHub Actions, IaC, IT运维管理, JSONLines, NIDS, OpenTofu, Runbook, SRE, SRE实战, Terraform, 上游代理, 事故响应, 偏差过滤, 可观察性, 可观测性, 子域名突变, 学习指南, 安全生产, 安全防御评估, 容器化, 平台工程, 开源框架, 开源项目, 技术教程, 持续交付, 持续集成, 故障排除, 本地开发环境, 架构决策记录, 生产级, 监控告警, 系统可靠性, 系统工程, 系统设计, 自动笔记, 请求拦截, 软件开发, 运维, 运维自动化, 逆向工具, 零信任