YDTNK/sre-lab
GitHub: YDTNK/sre-lab
一个以实际运行的 Demo API 为核心的 SRE 公开作品集,展示了从 SLO 定义、监控告警、CI/CD 到故障响应与事后复盘的完整可靠性工程实践。
Stars: 0 | Forks: 0
# SRE 实验室
[](https://github.com/YDTNK/sre-lab/actions/workflows/ci.yml)
[](https://github.com/YDTNK/sre-lab/actions/workflows/deploy-worker.yml)
## 概要
SRE Lab 是一个以 Reliability Demo API 为主题的 SRE / Platform Engineering 公开作品集。
它通过一个小型的公开 Web/API 服务,整理了如何设计和运维可靠性、监控、故障响应、CI/CD、Runbook 以及改进循环。
## 涵盖的主题
```
- SLO / SLI
- 外形監視
- アラート設計
- CI/CD
- 障害対応
- Runbook
- Postmortem
- API安全性
- コスト制御
- GitHub Issue / Pull Request ベースの運用
```
## 关于 AI 的运用
本项目在设计审查、实现辅助、文档一致性确认以及改进循环的梳理中,运用了 AI 辅助。
作为公开作品集展示的信息与面向管理员的内部计划及决策备忘录是分开管理的。在此 README 中,我们将仅针对外部可见的产出物和运维设计进行说明。
## Reliability Demo API
```
Production API:
https://sre-lab-api.daisan-tanaka.workers.dev
```
| Endpoint | 目的 |
|---|---|
| `GET /api/health` | 用于检查健康状况的 health check |
| `GET /api/status` | 确认 API 的状态及可用的 demo endpoint |
| `GET /api/slow?delayMs=1000` | 确认发生延迟时的行为 |
| `GET /api/error` | 返回故意 500 错误的故障响应 demo |
| `GET /api/fallback` | 确认 fallback 行为 |
`/api/error` 是故意的受控错误。它不会被包含在 Availability SLI 中,而是作为用于解释故障响应和监控设计的 demo 来处理。
## 运维文档
SLO、Runbook、故障记录、Postmortem 模板整理如下。
```
docs/slo/reliability-demo-api.md
docs/runbook.md
docs/incidents/2026-06-19-reliability-demo-api-mvp-verification.md
docs/postmortems/template.md
```
## 技术栈
| 领域 | 技术 |
|---|---|
| Frontend | HTML, CSS, JavaScript |
| Hosting | Cloudflare Pages |
| API | Cloudflare Workers |
| CI/CD | GitHub Actions, Wrangler |
| Monitoring | Grafana Cloud Synthetic Monitoring |
| Alerting | Grafana Alerting |
| Incident intake | Grafana Alert → Cloudflare Worker → GitHub Issue |
| Documentation | Markdown |
| Repository | GitHub |
## 公开 URL
```
Portfolio site:
https://sre-lab.pages.dev/
Workers API:
https://sre-lab-api.daisan-tanaka.workers.dev
```
标签:API集成, SRE, 偏差过滤, 可观测性, 后端开发, 多模态安全, 平台工程, 数据可视化, 监控告警, 程序员工具, 防御加固, 高对比度