Hakimz02/linux-server-monitoring-incident-response-lab

GitHub: Hakimz02/linux-server-monitoring-incident-response-lab

一个 Linux 服务器监控与事件响应实验项目，通过模拟 Nginx 服务中断来练习从检测到恢复的完整故障排查流程。

Stars: 0 | Forks: 0

# Linux 服务器监控与事件响应实验 ## 概述本项目展示了如何使用 Ubuntu 虚拟机和 Nginx Web 服务器来进行基础的 Linux 服务器监控与事件响应。本实验侧重于检查服务器健康状况、识别模拟的 Web 服务器宕机、寻找根本原因、恢复服务，并将故障排除过程记录归档。 ## 实验目标 - 记录服务器的正常基线状态 - 监控运行时间、内存、磁盘使用情况、服务状态、HTTP 响应以及监听端口 - 模拟 Nginx 服务中断 - 使用 Linux 命令排查问题 - 恢复 Nginx 服务 - 将发现记录在事件报告中 ## 使用的工具和命令 - Ubuntu Linux - Nginx - `uptime` - `free -h` - `df -h` - `systemctl` - `curl` - `ss` ## 包含的文件 - `baseline.md` - 服务器基线健康检查 - `incident-nginx-down.md` - 模拟 Nginx 服务中断的事件报告 - `monitoring-command-cheatsheet.md` - 监控和故障排除命令摘要 ## 事件摘要 Nginx 服务被故意停止，以模拟 Web 服务器中断。该问题使用 `curl` 检测到，通过 `systemctl` 确认，并通过检查端口 80 是否未在监听来验证。该问题通过重新启动 Nginx 服务并确认 Web 服务器返回 `HTTP/1.1 200 OK` 得到解决。 ## 主要学习成果本实验有助于练习基础的 NOC 和基础设施支持故障排除流程： ``` Check HTTP response -> Check service status -> Check listening port -> Identify root cause -> Restore service -> Verify recovery ```

标签：Nginx, 故障排查, 系统运维, 运维监控