siam-hossain9/DevOps-Incident-Response-Automation

GitHub: siam-hossain9/DevOps-Incident-Response-Automation

基于n8n构建的AI驱动事件响应自动化工作流,整合多源告警接入、GPT-4智能诊断、值班路由与自动修复,实现端到端的SRE事件处理闭环。

Stars: 0 | Forks: 0

# DevOps 事件响应自动化 ## 关于本自动化 本代码库包含一个高级的 **n8n** 自动化工作流,旨在充当 AI 驱动的站点可靠性工程师 (SRE)。它提供端到端的事件响应,从告警接入一直到自动修复和事后追踪。 ### 主要功能与工作流步骤: 1. **统一告警接入:** 自动捕获来自内置 webhook(Datadog、Grafana)的告警和常规 Cron 健康检查,将不同的事件负载标准化为单一的标准事件格式。 2. **AI 驱动的诊断:** 将标准化后的告警数据流式传输给一个设定为高级 SRE 角色的 OpenAI (GPT-4) 模型。AI 会诊断事件(例如,`CPU_SPIKE`、`MEMORY_LEAK`),预测根本原因,设定置信度分数,评估业务影响,并指示必要的修复步骤。 3. **PagerDuty 上下文与路由:** 调取 PagerDuty 历史记录,以识别该事件是否为重复告警,并查找当前活跃的值班工程师档案。 4. **智能分流与标记:** 根据 AI 置信度决定下一步操作。它会标记该事件是否需要触发自动化的 AWS 扩容事件、服务重启或 GitHub 部署回滚。 5. **团队沟通:** 通过 Slack 发送包含 AI 诊断结果、建议运行的命令以及指定值班工程师的富文本通知,同时在 Notion 和电子邮件中向利益相关者同步最新情况。 6. **自动化 Runbook:** 在严重的 SEV-1 事件期间,可以直接执行 AWS 操作、自动批准回滚并在无需人工干预的情况下记录修复操作。 ## 工作流可视化 ![DevOps 事件响应自动化工作流](https://raw.githubusercontent.com/siam-hossain9/DevOps-Incident-Response-Automation/master/Screenshot%202026-04-27%20201354.png) ## 设置指南 ``` ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ STEP 1 — CREDENTIALS NEEDED IN N8N ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ □ OpenAI API Key (GPT-4) □ Gmail OAuth2 □ Slack Bot Token □ GitHub Personal Access Token □ Notion Integration Token □ PagerDuty API Key + Routing Key □ AWS Access Key + Secret (for scaling) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ STEP 2 — REPLACE ALL PLACEHOLDERS ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ □ YOUR_PAGERDUTY_API_KEY □ YOUR_PAGERDUTY_ROUTING_KEY □ YOUR_PAGERDUTY_SERVICE_ID □ YOUR_ESCALATION_POLICY_ID □ YOUR_GITHUB_TOKEN □ YOUR_GITHUB_ORG □ YOUR_REPO_NAME □ YOUR_GITHUB_USERNAME □ YOUR_ASG_NAME □ YOUR_ECS_CLUSTER_NAME □ YOUR_NOTION_INCIDENTS_DB_ID □ YOUR_SLACK_DEVOPS_CHANNEL_ID □ oncall@company.com □ manager@company.com ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ STEP 3 — NOTION DATABASE SETUP ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ Create "Incidents" database with fields: □ Title (Text) □ Incident ID (Text) □ Severity (Select: critical/high/medium/low) □ Type (Select: CPU_SPIKE/MEMORY_LEAK/etc) □ Service (Text) □ Host (Text) □ Environment (Select: production/staging) □ Status (Select: Open/Investigating/Resolved) □ SEV Rating (Select: SEV-1/SEV-2/SEV-3) □ SLA Breached (Checkbox) □ Recurring (Checkbox) □ On-Call Engineer (Text) □ Triggered At (Date) □ Follow-Up Date (Date) □ Actions Taken (Number) □ Workflow ID (Text) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ STEP 4 — DATADOG WEBHOOK SETUP ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1. Go to Datadog → Integrations → Webhooks 2. Add new webhook 3. URL: https://your-n8n.com/webhook/datadog-alert-webhook 4. Payload: { "title": "$EVENT_TITLE", "body": "$EVENT_MSG", "priority": "$PRIORITY", "host": "$HOSTNAME", "metric": "$METRIC", "value": "$METRIC_VALUE", "alert_type": "$ALERT_TYPE", "url": "$LINK" } ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ STEP 5 — GRAFANA WEBHOOK SETUP ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1. Go to Grafana → Alerting → Notification Channels 2. Type: Webhook 3. URL: https://your-n8n.com/webhook/grafana-alert-webhook 4. HTTP Method: POST ```
标签:AIOps, AI SRE, AI诊断, AI驱动运维, AWS, Datadog, DevSecOps, DPI, GitHub回滚, GPT-4, Grafana, IT运维, LLM, n8n, Notion, OpenAI, PagerDuty, Runbook, Slack, Socks5代理, Unmanaged PE, Webhook, 上游代理, 事件分级, 事件管理, 事后追踪, 云运维, 企业通讯, 信心评分, 健康检查, 内存规避, 力导向图, 告警归一化, 告警路由, 基础设施自动化, 大模型, 扩缩容, 排班管理, 数字取证, 无人工干预, 智能路由, 智能运维助手, 根因分析, 模块化设计, 漏洞利用检测, 特权提升, 站点可靠性工程, 自动化修复, 自动化脚本, 自动化运维, 自动化部署