hanwen36/linux-datacenter-incident-lab
GitHub: hanwen36/linux-datacenter-incident-lab
一个面向数据中心运维和 SRE 的 Linux 故障排查实验库,通过六种典型场景模拟真实故障并提供结构化的排查流程与 Runbook 参考。
Stars: 0 | Forks: 0
# Linux 数据中心故障实验
本仓库包含实操性的 Linux 故障排查实验,旨在模拟数据中心环境中经常发生的真实故障。
本项目的目标是练习使用标准 Linux 工具和运维 Runbook 来诊断和解决系统问题。
## 环境要求
Ubuntu Server (VirtualBox)
## 涉及技能
Linux 系统故障排查
磁盘使用分析
日志调查
故障响应流程
根因分析
系统恢复验证
## 使用工具
df
du
lsof
iostat
sort
rm
## 实验项目
P1 – 磁盘已满故障
P2 – Inode 耗尽
P3 – 已删除文件句柄
P4 – 高 IO 故障
P5 – 日志激增
P6 – RAID 重建
每个项目包含:
- 故障描述
- 调查步骤
- Runbook 流程
- 终端命令日志
- 故障排查过程截图
## 目的
这些实验旨在模拟数据中心工程师和 SRE(站点可靠性工程师)面临的常见运维故障,并以结构化且可复现的方式记录故障排查过程。
标签:inode耗尽, IO性能, RAID重建, SRE, VirtualBox, 偏差过滤, 后端运维, 实验环境, 库, 应急响应, 操作手册, 故障排查, 数据中心, 文件系统, 服务器管理, 根因分析, 模拟演练, 磁盘分析, 系统恢复, 运维, 运维工具