Yashchaudhary0809/devops-incident-response
GitHub: Yashchaudhary0809/devops-incident-response
基于 Prometheus 和 Kubernetes 的事件驱动自动修复系统,将监控告警转化为可执行的修复动作实现自愈。
Stars: 0 | Forks: 2
# DevOps 事件响应
事件驱动事件响应系统 - Kubernetes & Prometheus
# 事件驱动自动修复系统
## 📘 项目概述
本项目使用事件驱动架构实现了一个 Kubernetes 自动事件响应系统。该系统监控应用程序,检测故障,并在无需人工干预的情况下执行自动修复。
## 🎯 目标
- 对 Kubernetes 工作负载进行实时监控
- 自动检测故障
- 通过修复引擎实现自愈
- 减少手动 DevOps 工作量
## 🧱 架构
Prometheus → Alertmanager → Webhook → Remediation Engine → Kubernetes Action
## 🛠 技术栈
- Kubernetes (Minikube)
- Prometheus & Alertmanager
- Python Flask
- Docker
- kubectl
## 👥 团队角色
成员 1:Prometheus & Grafana 设置
成员 2:告警规则配置
成员 3:修复脚本 & GitHub
## 📂 结构
devops-incident-response/
├── kubernetes/
│ ├── alert-rules.yaml # 告警检测规则
│ └── alertmanager-config.yaml # 告警路由配置
├── scripts/
│ └── remediation-scripts.sh # 自动修复脚本
├── monitoring/
│ └── prometheus-values.yaml # Prometheus 配置
├── docs/
│ ├── SETUP.md # 安装指南
│ ├── DEMO_INSTRUCTIONS.md # 演示说明
│ └── TEAM_WORKFLOW.md # Git 工作流指南
├── README.md # 本文件
└── .gitignore # 要忽略的文件
## 🚀 如何运行
1. 启动 Minikube
2. 部署示例应用
3. 安装 Prometheus
4. 配置告警
## 📌 未来范围
- 邮件/短信通知
- 基于 AI 的决策引擎
- 多集群支持
## 🛠 技术栈
- Kubernetes (Minikube)
- Prometheus & Alertmanager
- Python Flask
- Docker
- kubectl
## 👥 团队角色
成员 1:Prometheus & Grafana 设置
成员 2:告警规则配置
成员 3:修复脚本 & GitHub
## 📂 结构
devops-incident-response/
├── kubernetes/
│ ├── alert-rules.yaml # 告警检测规则
│ └── alertmanager-config.yaml # 告警路由配置
├── scripts/
│ └── remediation-scripts.sh # 自动修复脚本
├── monitoring/
│ └── prometheus-values.yaml # Prometheus 配置
├── docs/
│ ├── SETUP.md # 安装指南
│ ├── DEMO_INSTRUCTIONS.md # 演示说明
│ └── TEAM_WORKFLOW.md # Git 工作流指南
├── README.md # 本文件
└── .gitignore # 要忽略的文件
## 🚀 如何运行
1. 启动 Minikube
2. 部署示例应用
3. 安装 Prometheus
4. 配置告警
## 📌 未来范围
- 邮件/短信通知
- 基于 AI 的决策引擎
- 多集群支持标签:AIOps, Alertmanager, Cutter, Docker, Kubectl, Minikube, Python Flask, SRE, Webhook, 事件响应系统, 事件驱动架构, 偏差过滤, 力导向图, 子域名突变, 安全防御评估, 容器编排, 库, 应急响应, 故障检测, 监控告警, 站点可靠性工程, 自动修复, 自定义请求头, 自愈系统, 请求拦截, 运维自动化, 逆向工具