inno-devops-labs/SRE-Intro
GitHub: inno-devops-labs/SRE-Intro
SRE入门实践项目,通过10个实验室和2个附加微服务,帮助用户掌握SRE核心技能。
Stars: 3 | Forks: 3
# SRE 简介 — 站点可靠性工程基础
## 课程完成情况
到第 10 周,你将:
- 在 k3d 上部署一个可工作的 QuickTicket,包含 5 个网关副本,Postgres 在 PVC 上,由 ArgoCD 驱动的 GitOps,Argo Rollouts 金丝雀发布与自动化分析,集群内 Prometheus,以及基于 SLO 的警报配置。
- 实验报告记录:故障探索、SLO 定义、CI/CD 设置、包含事后总结的事故响应、3 个混沌实验、备份/恢复周期(测量 RTO/RPO)、Locust 压力测试识别系统的故障点,以及一个可靠性综合评审。
- 如果你完成了附加实验:一个带有代码内重试、断路器和速率限制器的第 4 个微服务,以及一个生产级别的 K8s 弹性故事(PDBs、优雅关闭、零停机迁移)。
**这正是 SRE 面试中会经历的资料包** — 请参阅 `submissions/lab10.md` 中的 5 分钟演示脚本(在 10 实验综合中生成)。
标签:ArgoCD, Argo Rollouts, GitOps, Grafana, Loki, PDB, PostgreSQL, PVC, RPO, RTO, SLO, SRE, Tempo, 代理支持, 优雅关闭, 偏差过滤, 可靠性工程, 告警, 备份恢复, 子域名突变, 故障分析, 数据库可靠性, 混沌工程, 混沌测试, 渐进式交付, 监控, 自定义请求头, 负载测试, 零停机迁移