Denny56785/sql-server-runbooks
GitHub: Denny56785/sql-server-runbooks
面向企业 IT 运维的可靠性工程作品集,汇集了基础设施现代化、自动化部署、监控可观测性及事件响应的真实案例研究。
Stars: 0 | Forks: 1
# 运维可靠性工程作品集
## 👤 作者
**Dennis Lubins**
运维可靠性工程师 (SRE)
# 📌 概述
本仓库展示了基于设计、稳定、监控和现代化生产系统 hands-on 经验构建的真实基础设施、运维和可靠性工程案例研究。
本作品集的重点不是孤立的技术,而是用于改善以下方面的运维系统和工程方法:
- 可靠性
- 可见性
- 性能
- 自动化
- 运维一致性
- 事件响应
- 基础设施可持续性
虽然多个项目中都出现了 SQL Server,但它是作为更广泛的运维和平台工程环境的一部分来展示的,而不是作为一个独立的专业方向。
# 🧠 运维理念
→ [我如何处理生产系统](./docs/00-operational-philosophy.md)
本文档概述了本作品集项目中使用的运维思维:
- 可见性 → 理解 → 针对性修复 → 监控
- 系统思维优于被动式故障排除
- 解决方案的运维化以实现长期稳定性
# 🚀 精选案例研究
## 🏗️ 基础设施与平台工程
### 🧱 [在 AWS 上构建端到端的基础设施、部署与可观测性实验室](./docs/case-studies/infrastructure/aws-observability-lab.md)
使用以下工具设计并实现了完整的基础设施 → 部署 → 监控 → 自动化工作流:
- Terraform
- Ansible
- Docker
- SQL Server
- Prometheus
- Grafana
#### 核心亮点
- 自动化基础设施开通
- 使用 Ansible 进行配置管理
- 实时可观测性 pipeline
- 自动化的 SQL Server 恢复工作流
- 集成多容器工作负载部署
#### 相关实验室阶段
- [阶段 1 – 控制平面设置](./docs/case-studies/infrastructure-lab/phase-01-control-plane-setup.md)
- [阶段 2 – 基础设施开通](./docs/case-studies/infrastructure-lab/phase-02-terraform-infrastructure.md)
- [阶段 3 – 配置管理](./docs/case-studies/infrastructure-lab/phase-03-ansible-configuration.md)
- [阶段 4 – 工作负载、监控与自动化](./docs/case-studies/infrastructure-lab/phase-04-workload-monitoring-automation.md)
### 💾 [AWS S3 备份架构与生命周期管理](./docs/case-studies/infrastructure/aws-s3-backup-architecture-lifecycle-management.md)
设计并实现了一个安全且成本优化的基于 AWS 的备份架构,支持长期归档保留、生命周期管理、运维监控以及 Linux 原生自动化工作流。
#### 核心亮点
- 多层 S3 + Glacier 存储生命周期策略
- IAM 最小权限访问控制
- AWS Budgets 和 Cost Anomaly Detection 监控
- 基于 Linux 的 rclone 自动化工作流
- 加密的异地备份架构
- 运维治理和成本优化设计
### ⚙️ [遗留部署自动化与 SSRS 现代化](./docs/case-studies/infrastructure/legacy-deployment-modernization.md)
现代化并自动化了一个严重依赖手动的企业部署环境,该环境支持 Web 应用、Citrix 托管的客户端平台以及 SSRS 报告基础设施。
#### 核心亮点
- 将部署窗口从约 90 分钟缩短至约 15 分钟
- 设计了自定义的 SSRS 部署自动化框架
- 使用 TeamCity、Octopus Deploy 和 PowerShell 实现自动化部署
- 消除了所有环境中的手动部署流程
- 将遗留的 Windows Server 2008 / SSRS 平台迁移至 2019
### 📋 [企业部署治理与运维标准化](./docs/case-studies/infrastructure/enterprise-deployment-governance.md)
设计并运维化了一个集中的企业部署治理框架,支持符合 SOC 标准的生产变更管理、回滚协调、部署沟通以及跨职能运维标准化。
#### 核心亮点
- 将碎片化的部署流程集中到统一的 Confluence 运维中心
- 标准化部署治理和沟通工作流
- 协调跨多个技术团队的生产部署和回滚操作
- 开发可扩展的入职和运维培训框架
- 使用基于 SQL 的报告集成,自动化部署跟踪和沟通工作流
- 对工程师进行企业部署协调流程的培训和指导
### 🖥️ [企业虚拟化迁移与基础设施现代化](./docs/case-studies/infrastructure/virtualization-modernization.md)
设计并执行了从遗留超融合基础设施到现代化服务器平台的分阶段迁移。
#### 核心亮点
- 基础设施现代化策略
- 分阶段工作负载迁移
- 风险降低规划
- VMware 运维管理
- 遗留基础设施退役
### 🚀 [SQL Server 迁移策略与执行系统](./docs/case-studies/infrastructure/sql-server-migration-strategy.md)
开发了一种受控的 SQL Server 升级方法,将引擎级别的更改与查询处理行为的更改分离开来。
#### 核心亮点
- 受控的 SQL Server 2017 → 2022 升级策略
- 基于 Query Store 的验证
- 增量兼容级别推出
- 基于快照的回滚规划
- 性能回归分析
# 📡 可靠性工程与可观测性
### 🔥 [将每天 2,000 多次 SQL Server 死锁减少至接近零](./docs/case-studies/reliability/deadlock-reduction.md)
调查并修复了跨多个生产 SQL Server 环境的系统性死锁问题。
#### 核心亮点
- 基于 Extended Events 的死锁分析
- 索引和统计信息优化
- 工作负载冲突识别
- 监控驱动的修复策略
- 长期运维稳定化
#### 成果
- 将每天约 2,000 次死锁减少至接近零
- 显著减少应用程序故障和运维噪音
### ⚙️ [消除低效统计信息维护导致的 TempDB 延迟](./docs/case-studies/reliability/tempdb-maintenance-optimization.md)
识别并解决了由低效的全面统计信息更新引起的维护驱动型 TempDB 争用问题。
#### 核心亮点
- 感知工作负载的维护策略
- 大表优先级排序
- 分阶段统计信息维护模型
- 降低维护开销
- 提升维护窗口的稳定性
### 📊 [在不增加基础设施成本的情况下诊断突发导致的 SQL Server 磁盘延迟](./docs/case-studies/reliability/burst-induced-disk-latency.md)
对 Azure 托管基础设施上的瞬时 SQL Server 磁盘延迟事件进行了有针对性的基于间隔的分析。
#### 核心亮点
- 短间隔工作负载捕获
- Azure 指标关联分析
- Checkpoint / 脏页刷新分析
- 告警调优和运维优化
- 在不扩展基础设施的前提下优化监控
### 📬 [构建无 Database Mail 的 SQL Server 告警系统](./docs/case-studies/reliability/alerting-pipeline-modernization.md)
设计了一个基于队列的告警 pipeline,以取代不可靠的 SQL Server Database Mail 工作流。
#### 核心亮点
- 解耦的告警处理架构
- 基于队列的生命周期跟踪
- PowerShell 驱动的交付工作流
- 改善运维可见性
- 增强告警的可靠性和故障排除能力
### 🛡️ [Azure SQL 备份可观测性与运维恢复框架](./docs/case-studies/reliability/azure-sql-backup-observability-framework.md)
设计并运维化了一个多层 Azure SQL 备份可观测性与响应框架,支持托管在 Azure 中的生产 SQL Server 工作负载。
#### 核心亮点
- 构建 Azure Backup + SQL 监控运维框架
- 开发集中的 SSRS 备份可观测性仪表板
- 实现基于频率的 SQL 监控和告警
- 识别跨服务器的非 Copy-Only 备份链干扰
- 发现静默的 Database Mail 通知失败
- 标准化 Azure Backup 事件响应 runbook
- 分离告警、监控、可观测性和响应职责
# ☁️ 云安全与自动化
### 🛡️ [基于云的恶意软件检测与安全文件处理 Pipeline](./docs/case-studies/cloud-security/azure-malware-detection-pipeline.md)
在 Azure 上设计并实现了一个云原生的恶意软件扫描和安全文件处理工作流。
#### 核心亮点
- 基于容器的恶意软件扫描
- Serverless 工作流集成
- 自动化响应 pipeline
- 实时检测和告警
- 云平台运维化
# 🛠️ 核心关注领域
- 基础设施现代化
- 部署自动化与 CI/CD 运维化
- 可靠性工程
- 监控与可观测性
- 事件响应与根因分析
- 生产系统工程
- 云运维与混合基础设施
- 自动化与运维工作流
- 存储与数据保护架构
- 平台稳定性与性能
- 灾难恢复与受控变更管理
- 部署治理与运维标准化
- 变更管理与发布协调
- 知识管理与运维赋能
- 跨职能技术运维
- 备份可观测性与运维韧性
- 运维监控架构
- 可靠性与恢复工程
# ⚙️ 技术与平台
## 🏗️ 基础设施与云
- AWS (EC2, S3, IAM, SNS, Budgets, Cost Anomaly Detection)
- Microsoft Azure
- VMware
- Dell PowerEdge
- 超融合基础设施
- Windows Server
- Azure Recovery Services Vault
## 🤖 自动化与部署
- PowerShell
- Terraform
- Ansible
- TeamCity
- Octopus Deploy
- Confluence
## 📈 监控与可观测性
- Grafana
- Prometheus
- SQL Server Extended Events
- Azure Backup
- SQL Server Database Mail
- SQL Server Reporting Services (SSRS)
## 🗄️ 数据与报告平台
- SQL Server
- SSRS
- Query Store
## 💾 存储与备份
- Amazon S3
- S3 Glacier Flexible Retrieval
- S3 Glacier Deep Archive
- rclone
## 📦 工作负载与容器化
- Docker
- Docker Compose
- Citrix
- Distrobox
## 🔧 运维实践
- 基础设施现代化
- CI/CD 运维化
- 根因分析
- 事件响应
- 灾难恢复规划
- 部署治理
- 生产变更管理
- 运维文档系统
- 回滚协调
- 技术培训与赋能
- 备份可观测性
- 运维 Runbook 工程
- 事件工作流标准化
# 📂 仓库结构
```
docs/
├── 00-operational-philosophy.md
│
├── case-studies/
│ ├── infrastructure/
│ ├── reliability/
│ └── cloud-security/
│
├── infrastructure-lab/
│
└── images/
```
# ⚠️ 注意事项
- 所有环境和示例均已进行匿名化处理
- 文档侧重于运维方法和工程方法
- 案例研究是根据真实生产经验概括得出的
# 📬 联系方式
LinkedIn:https://www.linkedin.com/in/dennis-lubins-25372a356
# 📄 许可证
本仓库基于 MIT License 授权。
标签:AI合规, API集成, ECS, Terraform, 个人作品集, 可观测性, 基础设施自动化, 站点可靠性工程(SRE), 系统提示词, 自定义请求头, 请求拦截, 运维