Yashchaudhary0809/devops-incident-response

GitHub: Yashchaudhary0809/devops-incident-response

基于 Prometheus 和 Kubernetes 的事件驱动自动修复系统,将监控告警转化为可执行的修复动作实现自愈。

Stars: 0 | Forks: 2

# DevOps 事件响应 事件驱动事件响应系统 - Kubernetes & Prometheus # 事件驱动自动修复系统 ## 📘 项目概述 本项目使用事件驱动架构实现了一个 Kubernetes 自动事件响应系统。该系统监控应用程序,检测故障,并在无需人工干预的情况下执行自动修复。 ## 🎯 目标 - 对 Kubernetes 工作负载进行实时监控 - 自动检测故障 - 通过修复引擎实现自愈 - 减少手动 DevOps 工作量 ## 🧱 架构 Prometheus → Alertmanager → Webhook → Remediation Engine → Kubernetes Action image ## 🛠 技术栈 - Kubernetes (Minikube) - Prometheus & Alertmanager - Python Flask - Docker - kubectl ## 👥 团队角色 成员 1:Prometheus & Grafana 设置 成员 2:告警规则配置 成员 3:修复脚本 & GitHub ## 📂 结构 devops-incident-response/ ├── kubernetes/ │ ├── alert-rules.yaml # 告警检测规则 │ └── alertmanager-config.yaml # 告警路由配置 ├── scripts/ │ └── remediation-scripts.sh # 自动修复脚本 ├── monitoring/ │ └── prometheus-values.yaml # Prometheus 配置 ├── docs/ │ ├── SETUP.md # 安装指南 │ ├── DEMO_INSTRUCTIONS.md # 演示说明 │ └── TEAM_WORKFLOW.md # Git 工作流指南 ├── README.md # 本文件 └── .gitignore # 要忽略的文件 ## 🚀 如何运行 1. 启动 Minikube 2. 部署示例应用 3. 安装 Prometheus 4. 配置告警 ## 📌 未来范围 - 邮件/短信通知 - 基于 AI 的决策引擎 - 多集群支持
标签:AIOps, Alertmanager, Cutter, Docker, Kubectl, Minikube, Python Flask, SRE, Webhook, 事件响应系统, 事件驱动架构, 偏差过滤, 力导向图, 子域名突变, 安全防御评估, 容器编排, 库, 应急响应, 故障检测, 监控告警, 站点可靠性工程, 自动修复, 自定义请求头, 自愈系统, 请求拦截, 运维自动化, 逆向工具