Saurabhgupta1qz/on-call-copilot

GitHub: Saurabhgupta1qz/on-call-copilot

一款 AI 驱动的生产事故响应助手,通过历史事故记忆和大模型推理帮助 SRE 团队加速根因分析并降低 MTTR。

Stars: 0 | Forks: 1

# 🚨 On-Call Copilot "从每次故障中学习。更快地解决下一次故障。" ## 🎯 问题 SRE 和 DevOps 团队反复面临类似的生产事故: - 数据库连接池耗尽 - API 延迟飙升 - Kubernetes pod 崩溃 - 支付处理失败 - 基础设施中断 工程师在采取行动之前,需要花费大量宝贵的时间来搜索仪表板、runbook 和历史事故记录。 ## 💡 解决方案 On-Call Copilot 是一个 AI 驱动的事故响应助手,它可以: 1. 实时分析事故描述。 2. 从组织记忆中检索类似的历史事故。 3. 识别最可能的根本原因。 4. 推荐修复操作。 5. 生成面向客户的状态更新。 该系统不断从过去的事故中学习,并改进未来的响应。 ## ✨ 核心功能 ### 🧠 组织记忆 使用 Hindsight Memory 存储和检索历史事故知识。 ### ⚡ 根本原因分析 使用 LLM 驱动的推理,根据事故 trace 识别可能的原因。 ### 🔍 历史事故检索 查找相关的历史中断和修复模式。 ### 📢 客户沟通 自动起草面向客户的事故更新。 ### 📈 降低 MTTR 通过即时呈现已知解决方案,帮助团队更快地解决事故。 ## 🏗️ 架构 ``` ┌─────────────────────┐ │ Frontend (Vite) │ └──────────┬──────────┘ │ ▼ ┌─────────────────────┐ │ FastAPI Backend │ └──────────┬──────────┘ │ ┌────────────────┴───────────────┐ ▼ ▼ ┌─────────────────┐ ┌─────────────────┐ │ Hindsight Memory│ │ Groq LLM │ │ Incident Recall │ │ RCA Generation │ └─────────────────┘ └─────────────────┘ ▼ Root Cause Analysis ▼ Recommended Fixes ▼ Customer Updates ``` ## 📂 项目结构 ``` on-call-copilot/ │ ├── backend/ │ ├── api.py # FastAPI routes │ ├── agent.py # AI reasoning engine │ ├── memory.py # Hindsight integration │ ├── seed_data.py # Sample incidents │ ├── requirements.txt │ └── .env │ ├── frontend/ │ ├── src/ │ │ ├── components/ │ │ │ ├── IncidentInput.tsx │ │ │ ├── AnalysisResults.tsx │ │ │ ├── MemoryRecall.tsx │ │ │ └── TelemetryConsole.tsx │ │ │ │ │ ├── services/ │ │ │ └── api.ts │ │ │ │ │ ├── App.tsx │ │ └── main.tsx │ │ │ ├── package.json │ └── vite.config.ts │ ├── README.md └── .gitignore ``` ## 🛠️ 技术栈 ### 前端 - React - TypeScript - Vite ### 后端 - FastAPI - Python ### AI - Groq LLM ### 记忆层 - Hindsight ### 部署 - Vercel - Render ## 🚀 在线演示 ### 前端 https://on-call-copilot.vercel.app ### 后端 https://on-call-copilot.onrender.com ## ⚙️ 环境变量 ### 后端 ``` GROQ_API_KEY=your_key HINDSIGHT_API_KEY=your_key BANK_ID=your_bank_id ``` ## 🧪 示例事故 ``` Stripe webhook processing is timing out during invoice creation. Payments are delayed and subscriptions are not being activated. ``` ### 生成的输出 #### 根本原因 数据库延迟导致 webhook 处理超过了超时限制。 #### 推荐修复方案 - 优化数据库查询 - 增加 webhook 超时时间 - 将繁重的处理任务转移到 async worker 中 #### 客户更新 我们已注意到影响支付处理和订阅激活的延迟问题。我们的团队正在积极进行修复,服务将很快恢复。 ## 🎥 黑客松演示流程 1. 加载事故预设 2. 分析事故 3. 检索历史事故 4. 生成根本原因分析 5. 查看推荐修复方案 6. 生成客户更新 ## 🌟 影响 - 更快的事故解决速度 - 降低 MTTR - 更好的知识留存 - 改善客户沟通 - AI 驱动的卓越运营 ## 👨‍💻 团队 为黑客松、SRE 团队和现代云操作而打造。 **On-Call Copilot —— 从每次故障中学习。更快地解决下一次故障。**
标签:AIOps, AV绕过, FastAPI, SRE, 偏差过滤, 故障响应, 根因分析, 自动化攻击, 运维, 逆向工具