Saurabhgupta1qz/on-call-copilot
GitHub: Saurabhgupta1qz/on-call-copilot
一款 AI 驱动的生产事故响应助手,通过历史事故记忆和大模型推理帮助 SRE 团队加速根因分析并降低 MTTR。
Stars: 0 | Forks: 1
# 🚨 On-Call Copilot
"从每次故障中学习。更快地解决下一次故障。"
## 🎯 问题
SRE 和 DevOps 团队反复面临类似的生产事故:
- 数据库连接池耗尽
- API 延迟飙升
- Kubernetes pod 崩溃
- 支付处理失败
- 基础设施中断
工程师在采取行动之前,需要花费大量宝贵的时间来搜索仪表板、runbook 和历史事故记录。
## 💡 解决方案
On-Call Copilot 是一个 AI 驱动的事故响应助手,它可以:
1. 实时分析事故描述。
2. 从组织记忆中检索类似的历史事故。
3. 识别最可能的根本原因。
4. 推荐修复操作。
5. 生成面向客户的状态更新。
该系统不断从过去的事故中学习,并改进未来的响应。
## ✨ 核心功能
### 🧠 组织记忆
使用 Hindsight Memory 存储和检索历史事故知识。
### ⚡ 根本原因分析
使用 LLM 驱动的推理,根据事故 trace 识别可能的原因。
### 🔍 历史事故检索
查找相关的历史中断和修复模式。
### 📢 客户沟通
自动起草面向客户的事故更新。
### 📈 降低 MTTR
通过即时呈现已知解决方案,帮助团队更快地解决事故。
## 🏗️ 架构
```
┌─────────────────────┐
│ Frontend (Vite) │
└──────────┬──────────┘
│
▼
┌─────────────────────┐
│ FastAPI Backend │
└──────────┬──────────┘
│
┌────────────────┴───────────────┐
▼ ▼
┌─────────────────┐ ┌─────────────────┐
│ Hindsight Memory│ │ Groq LLM │
│ Incident Recall │ │ RCA Generation │
└─────────────────┘ └─────────────────┘
▼
Root Cause Analysis
▼
Recommended Fixes
▼
Customer Updates
```
## 📂 项目结构
```
on-call-copilot/
│
├── backend/
│ ├── api.py # FastAPI routes
│ ├── agent.py # AI reasoning engine
│ ├── memory.py # Hindsight integration
│ ├── seed_data.py # Sample incidents
│ ├── requirements.txt
│ └── .env
│
├── frontend/
│ ├── src/
│ │ ├── components/
│ │ │ ├── IncidentInput.tsx
│ │ │ ├── AnalysisResults.tsx
│ │ │ ├── MemoryRecall.tsx
│ │ │ └── TelemetryConsole.tsx
│ │ │
│ │ ├── services/
│ │ │ └── api.ts
│ │ │
│ │ ├── App.tsx
│ │ └── main.tsx
│ │
│ ├── package.json
│ └── vite.config.ts
│
├── README.md
└── .gitignore
```
## 🛠️ 技术栈
### 前端
- React
- TypeScript
- Vite
### 后端
- FastAPI
- Python
### AI
- Groq LLM
### 记忆层
- Hindsight
### 部署
- Vercel
- Render
## 🚀 在线演示
### 前端
https://on-call-copilot.vercel.app
### 后端
https://on-call-copilot.onrender.com
## ⚙️ 环境变量
### 后端
```
GROQ_API_KEY=your_key
HINDSIGHT_API_KEY=your_key
BANK_ID=your_bank_id
```
## 🧪 示例事故
```
Stripe webhook processing is timing out during invoice creation.
Payments are delayed and subscriptions are not being activated.
```
### 生成的输出
#### 根本原因
数据库延迟导致 webhook 处理超过了超时限制。
#### 推荐修复方案
- 优化数据库查询
- 增加 webhook 超时时间
- 将繁重的处理任务转移到 async worker 中
#### 客户更新
我们已注意到影响支付处理和订阅激活的延迟问题。我们的团队正在积极进行修复,服务将很快恢复。
## 🎥 黑客松演示流程
1. 加载事故预设
2. 分析事故
3. 检索历史事故
4. 生成根本原因分析
5. 查看推荐修复方案
6. 生成客户更新
## 🌟 影响
- 更快的事故解决速度
- 降低 MTTR
- 更好的知识留存
- 改善客户沟通
- AI 驱动的卓越运营
## 👨💻 团队
为黑客松、SRE 团队和现代云操作而打造。
**On-Call Copilot —— 从每次故障中学习。更快地解决下一次故障。**
标签:AIOps, AV绕过, FastAPI, SRE, 偏差过滤, 故障响应, 根因分析, 自动化攻击, 运维, 逆向工具