tcorry91/aws-monitoring-incident-response-lab

GitHub: tcorry91/aws-monitoring-incident-response-lab

一个基于 Terraform 的 AWS 监控与事件响应实验室，通过模拟高 CPU 负载场景演示从部署、监控、告警到文档化响应的完整云运维工作流。

Stars: 0 | Forks: 0

# AWS 监控与事件响应实验室 ## 概述本项目演示了一个使用 EC2、CloudWatch、SNS 和 Terraform 的小型 AWS 监控与事件响应工作流。其目标是模拟一个基础的云运维场景：部署一个简单的 Web 服务器，监控其 CPU 使用率，触发 CloudWatch 警报，接收 SNS 邮件通知，并遵循文档化的事件响应 Runbook。 ## 为什么会有这个项目云支持和云运维角色的要求不仅限于部署基础设施。它们还需要具备监控系统、响应警报、调查事件、记录发现以及提升可靠性的能力。本实验室演示了围绕以下方面的实际运维思维： - AWS 基础设施 - 监控与警报 - 事件响应 - 文档编写 - Runbook - 基础故障排查 - 基础设施即代码 ## 架构本实验室部署了： - 一个运行简单 Web 服务器的 EC2 实例 - 一个允许 HTTP 访问的安全组 - 用于 EC2 CPU 监控的 CloudWatch 指标 - 一个针对高 CPU 使用率的 CloudWatch 警报 - 一个用于邮件通知的 SNS 主题 - 一份文档化的事件响应 Runbook 架构图将添加在 `/architecture` 中。 ## 使用的 AWS 服务 - EC2 - CloudWatch - SNS - IAM - VPC / 安全组 - Terraform ## 仓库结构 ``` aws-monitoring-incident-response-lab/ README.md architecture/ screenshots/ runbooks/ high-cpu-alarm-response.md terraform/ versions.tf provider.tf variables.tf main.tf outputs.tf terraform.tfvars.example ``` ## 事件模拟使用 `stress-ng` 在 EC2 实例上模拟了高 CPU 事件。在初始测试期间，CPU 飙升在 CloudWatch 中清晰可见，但原始的 1 分钟警报配置在采用 EC2 基础监控时未能可靠触发。该警报被调整为 5 分钟的评估周期，以匹配标准的 EC2 指标粒度。最终的警报配置： - 指标：`CPUUtilization` - 命名空间：`AWS/EC2` - 阈值：大于 `50%` - 周期：`300 秒` - 评估周期：`1` - 报警数据点数：`1` 这使得警报能够进入 `ALARM` 状态并发送 SNS 邮件通知。 ## 截图 ### Web 服务器运行中 ![Web 服务器运行中](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/475c5312fa233230.png) ### CloudWatch 中可见的 CPU 飙升 ![CloudWatch 中可见的 CPU 飙升](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/0ed205ddd3233231.png) ### CloudWatch 警报已触发 ![CloudWatch 警报已触发](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/567723b0d3233232.png) ### 收到的 SNS 邮件警报 ![收到的 SNS 邮件警报](https://static.pigsec.cn/wp-content/uploads/repos/2026/05/3af59b2d46233233.png) ## 事件响应 Runbook 请参阅： ``` runbooks/high-cpu-alarm-response.md ``` ## 清理测试完成后，使用以下命令销毁资源： ``` terraform destroy ``` ## 我学到了什么这个项目强化了一个认识：监控配置必须与底层指标的粒度和行为相匹配。在这种情况下，EC2 基础监控无法可靠地支持最初的 1 分钟警报评估设置。将 CloudWatch 警报调整为使用 5 分钟周期使得警报工作流能够可靠运行。该实验室还展示了以下方面的重要性： - 在真实测试条件下验证警报 - 调优警报阈值和评估周期 - 记录事件响应步骤 - 在使用后销毁测试基础设施

标签：ASM汇编, AWS, CloudWatch, DPI, EC2, EC2, ECS, IaC, IaC, SNS, SRE, stress-ng, Terraform, 云计算, 偏差过滤, 压力测试, 可靠性, 告警通知, 安全运营, 实验室, 扫描框架, 故障排查, 架构图, 监控告警, 规则引擎, 运维手册