hanwen36/linux-datacenter-incident-lab

GitHub: hanwen36/linux-datacenter-incident-lab

一个面向数据中心运维和 SRE 的 Linux 故障排查实验库,通过六种典型场景模拟真实故障并提供结构化的排查流程与 Runbook 参考。

Stars: 0 | Forks: 0

# Linux 数据中心故障实验 本仓库包含实操性的 Linux 故障排查实验,旨在模拟数据中心环境中经常发生的真实故障。 本项目的目标是练习使用标准 Linux 工具和运维 Runbook 来诊断和解决系统问题。 ## 环境要求 Ubuntu Server (VirtualBox) ## 涉及技能 Linux 系统故障排查 磁盘使用分析 日志调查 故障响应流程 根因分析 系统恢复验证 ## 使用工具 df du lsof iostat sort rm ## 实验项目 P1 – 磁盘已满故障 P2 – Inode 耗尽 P3 – 已删除文件句柄 P4 – 高 IO 故障 P5 – 日志激增 P6 – RAID 重建 每个项目包含: - 故障描述 - 调查步骤 - Runbook 流程 - 终端命令日志 - 故障排查过程截图 ## 目的 这些实验旨在模拟数据中心工程师和 SRE(站点可靠性工程师)面临的常见运维故障,并以结构化且可复现的方式记录故障排查过程。
标签:inode耗尽, IO性能, RAID重建, SRE, VirtualBox, 偏差过滤, 后端运维, 实验环境, 库, 应急响应, 操作手册, 故障排查, 数据中心, 文件系统, 服务器管理, 根因分析, 模拟演练, 磁盘分析, 系统恢复, 运维, 运维工具