KongaraLikhith/crisis-ops-ai
GitHub: KongaraLikhith/crisis-ops-ai
这是一个基于 Google Gemini 模型和多智能体架构,实现从告警处理到根因分析与复盘报告全流程自动化的自主应急响应平台。
Stars: 2 | Forks: 0
# 🚨 CrisisOps AI
自主多智能体事件响应系统
CrisisOps AI 是一个智能的自主事件响应平台,旨在实时处理关键系统故障。它利用 Google 的 Gemini 模型和多智能体编排框架来对事件进行分类、通知利益相关者,并在无需人工干预的情况下生成事后复盘报告。
## 📽️ 在线演示
- Dashboard: https://crisis-ops-ai-253590687342.us-central1.run.app
- 部署于:Google Cloud Run
## 🛠️ 功能简介
CrisisOps AI 使用 AI 驱动的多智能体工作流取代了手动事件处理:
1. 事件接入 – 解析原始告警/日志
2. 分类与根因分析 – 识别严重程度和潜在原因
3. 利益相关者沟通 – 通过 Slack 发送自动更新,创建作战室等。
4. 事后复盘生成 – 生成结构化的事件报告
## 🤖 多智能体架构
Leader–Follower 设计(Google ADK)
- Commander Agent(领导者)
编排工作流并协调各智能体
- Triage Agent
执行根因分析并提出修复建议
- Communication Agent
通过 Slack 发送实时告警,创建作战室等。
- Documentation Agent
生成事后复盘和行动项
## ✨ 关键特性
- 完全自主的事件响应流水线
- 由 Gemini 模型驱动
- 实时监控 Dashboard (React)
- Slack 告警集成
- 结构化事件记录 (PostgreSQL)
- 历史事件向量检索(计划中)
## 技术栈
Backend:
- Python, Flask, SQLAlchemy
- PostgreSQL (Cloud SQL)
- Gunicorn / Uvicorn
Frontend:
- React, Vite, Axios
AI 和编排:
- Google Gemini
- Google ADK
基础设施:
- Google Cloud Run
- Artifact Registry
- Secret Manager
## 快速开始
前置条件:
- Python 3.11+
- Node.js 20+
- 启用了 Gemini API 访问权限的 Google Cloud 项目
## 本地设置
### 1. 克隆代码仓库
```
git clone https://github.com/KongaraLikhith/crisis-ops-ai.git
cd crisis-ops-ai
```
### 2. 后端
```
cd backend
python -m venv venv
source venv/bin/activate
pip install -r requirements.txt
cp .env.example .env
python main.py
```
### 3. 前端
```
cd ../frontend
npm install
npm run dev
```
## 部署(Cloud Run)
本项目针对 **Google Cloud Run** 进行了优化。要部署您自己的实例:
```
gcloud run deploy crisis-ops-ai \
--source . \
--region us-central1 \
--allow-unauthenticated
```
## 🔮 未来增强
- 基于角色的访问控制
- 事件分析 Dashboard(MTTR,趋势)
- 用于跨事件学习的记忆层
## 🤝 贡献者
在 **Google GenAI Hackathon** 期间用 ❤️ 构建。
- [Mohith Raghav](https://github.com/UniversalMohith)
- [Mayank Porwal](https://github.com/mayank-porwal-da)
- [Vijay](https://github.com/vijay-sb)
- [Likhith K](https://github.com/KongaraLikhith)
标签:Flask, Google ADK, Google Cloud Run, LLM, PostgreSQL, Python, React, Slack集成, SRE, Syscalls, Unmanaged PE, 事后复盘, 人工智能, 偏差过滤, 告警通知, 多智能体, 库, 应急响应, 故障诊断, 无后门, 根因分析, 测试用例, 用户模式Hook绕过, 自动化运维, 运维平台, 逆向工具