jiayiLiu619/edge-reliability-lab
GitHub: jiayiLiu619/edge-reliability-lab
基于 Python 的边缘可靠性实验室,通过自动化健康检查和事件响应文档帮助工程师练习 Web 端点故障排查与可靠性工程技能。
Stars: 0 | Forks: 0
# 边缘可靠性实验室
## 项目概述
本项目是一个使用 Python 构建的小型边缘可靠性实践实验室。它对公共 Web 端点执行基本的健康检查,并生成一份 Markdown 报告,总结 DNS 解析、HTTPS 响应状态、延迟、选定的响应头、TLS 证书可用性以及端点的整体健康状况。
目标是练习在 Web 可靠性、边缘系统、CDN 故障排除和事件响应中常用的面向基础设施的软件工程概念。
## 为什么这个项目很重要
现代 Web 应用程序在用户请求到达应用服务器之前依赖于许多层。一个请求可能涉及 DNS 解析、TLS 协商、CDN 或边缘路由、缓存行为、负载均衡以及后端应用程序响应。
当出现故障时,工程师需要确定是哪一层出现了问题。本项目通过检查端点健康状况并记录事件风格的故障排除步骤,模拟了该工作流程的一小部分。
## 实践的核心概念
- DNS 解析
- HTTPS 响应验证
- TLS 证书检查
- HTTP 状态码检查
- 响应延迟测量
- Header 检查
- Cache-Control header 审查
- 事件响应文档记录
- 以可靠性为核心的故障排除
## 使用的工具
- Python
- Python 标准库
- CSV
- Markdown 报告生成
- 基本网络和 Web 基础设施概念
## 仓库结构
```
edge-reliability-lab/
├── README.md
├── requirements.txt
├── data/
│ └── endpoints.csv
├── src/
│ └── edge_health_check.py
├── reports/
│ └── endpoint_health_report.md
└── docs/
├── incident_response_template.md
└── sample_incident_report.md
```
## 如何运行
安装依赖:
```
pip install -r requirements.txt
```
运行健康检查脚本:
```
python src/edge_health_check.py
```
脚本生成:
```
reports/endpoint_health_report.md
```
## 输入数据
项目从以下位置读取端点定义:
```
data/endpoints.csv
```
每行包括:
- 端点名称
- URL
- 预期的 HTTP 状态码
示例:
```
name,url,expected_status
GitHub,https://github.com,200
Python,https://www.python.org,200
```
## 输出报告
生成的报告包括:
- 检查的端点总数
- 健康和不健康的端点计数
- DNS 状态
- TLS 可用性
- 预期与实际的 HTTP 状态
- 响应延迟
- 选定的 HTTP header
- 故障排除说明
## 事件响应实践
`docs` 文件夹包括:
- 事件响应模板
- 事件报告示例
这些文档展示了初级工程师在遇到端点、DNS、TLS、路由或可靠性问题时,如何组织调查记录。
## 简历要点版本
- 构建了一个基于 Python 的边缘可靠性实验室,用于检查受监控端点的 DNS 解析、HTTPS 响应状态、响应延迟、TLS 证书可用性以及选定的 HTTP header。
- 生成 Markdown 健康报告,总结端点状态、可靠性信号和故障排除说明。
- 记录了事件响应工作流程,包括检测、分诊、影响评估、缓解、根因分析和后续行动。
标签:CDN排障, DNS解析, HTTP健康检查, HTTP状态码, Markdown报告, Python, SRE, TCP/UDP/TLS指纹, TLS证书, Web可靠性, 偏差过滤, 可靠性工程, 基础设施运维, 实时处理, 底层编程, 开源项目, 插件系统, 故障响应, 无后门, 无线安全, 站点可靠性, 端点监控, 系统可用性, 缓存控制, 网络安全, 网络延迟测量, 请求头检查, 边缘可靠性, 边缘计算, 运维自动化, 逆向工具, 防御加固, 隐私保护