Hakimz02/linux-server-monitoring-incident-response-lab
GitHub: Hakimz02/linux-server-monitoring-incident-response-lab
一个 Linux 服务器监控与事件响应实验项目,通过模拟 Nginx 服务中断来练习从检测到恢复的完整故障排查流程。
Stars: 0 | Forks: 0
# Linux 服务器监控与事件响应实验
## 概述
本项目展示了如何使用 Ubuntu 虚拟机和 Nginx Web 服务器来进行基础的 Linux 服务器监控与事件响应。
本实验侧重于检查服务器健康状况、识别模拟的 Web 服务器宕机、寻找根本原因、恢复服务,并将故障排除过程记录归档。
## 实验目标
- 记录服务器的正常基线状态
- 监控运行时间、内存、磁盘使用情况、服务状态、HTTP 响应以及监听端口
- 模拟 Nginx 服务中断
- 使用 Linux 命令排查问题
- 恢复 Nginx 服务
- 将发现记录在事件报告中
## 使用的工具和命令
- Ubuntu Linux
- Nginx
- `uptime`
- `free -h`
- `df -h`
- `systemctl`
- `curl`
- `ss`
## 包含的文件
- `baseline.md` - 服务器基线健康检查
- `incident-nginx-down.md` - 模拟 Nginx 服务中断的事件报告
- `monitoring-command-cheatsheet.md` - 监控和故障排除命令摘要
## 事件摘要
Nginx 服务被故意停止,以模拟 Web 服务器中断。该问题使用 `curl` 检测到,通过 `systemctl` 确认,并通过检查端口 80 是否未在监听来验证。该问题通过重新启动 Nginx 服务并确认 Web 服务器返回 `HTTP/1.1 200 OK` 得到解决。
## 主要学习成果
本实验有助于练习基础的 NOC 和基础设施支持故障排除流程:
```
Check HTTP response -> Check service status -> Check listening port -> Identify root cause -> Restore service -> Verify recovery
```
标签:Nginx, 故障排查, 系统运维, 运维监控