Minaubuhu728/incident-commander
GitHub: Minaubuhu728/incident-commander
这是一个由MiMo AI驱动的多智能体事故响应平台,用于自动化基础设施事故的检测、分类、调查、修复和事后分析。
Stars: 0 | Forks: 0
# 🔥 事故指挥官
由 MiMo AI 驱动的智能体事故响应平台。五个专业 AI 智能体在顺序流水线中工作,用于基础设施事故的检测、分类、调查、修复和事后分析报告生成。
## 架构
```
┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ Detect │───▶│ Triage │───▶│ Investigate │───▶│ Remediate │───▶│ PostMortem │
│ Agent │ │ Agent │ │ Agent │ │ Agent │ │ Agent │
└─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘
│ │ │ │ │
▼ ▼ ▼ ▼ ▼
Severity Root Cause Deep Analysis Fix Suggestions Incident Report
Classification Assessment Log/Trace/MTTR Runbook Gen Action Items
```
## 功能特性
- **5 个专业 AI 智能体** — 每个智能体处理事故响应的特定阶段
- **实时流水线** — 事故自动流经所有智能体处理
- **多源数据接入** — 支持 PagerDuty、Datadog、Grafana、Slack 网络钩子
- **分析仪表板** — 展示 MTTR 趋势、解决率、智能体性能指标
- **Docker 部署** — 包含 PostgreSQL、Redis 和 Nginx 的全栈部署方案
## 快速启动
```
# 克隆与设置
git clone https://github.com/Minaubuhu728/incident-commander.git
cd incident-commander
cp config/production.yaml.example config/production.yaml
# Docker 部署
docker-compose up -d
# 访问仪表盘
open http://localhost:8080
```
## 智能体流水线
### 1. 检测智能体
监控来自多个来源(PagerDuty、Datadog、Grafana)的传入警报。对严重程度进行分类(P0-P4)并提取关键元数据。
### 2. 分类智能体
分析事故上下文,确定根本原因假设和影响范围评估。
### 3. 调查智能体
深入分析日志、追踪和指标数据。关联近期部署和配置变更信息。
### 4. 修复智能体
生成修复建议,创建操作手册,并可触发自动化修复工作流。
### 5. 事后分析智能体
创建包含时间线、根本原因分析和行动项目的综合性事故报告。
## Token 消耗
每个事故流经 5 个智能体,平均进行 12 次 LLM 调用:
- 检测阶段:2 次调用(分类 + 元数据提取)
- 分类阶段:3 次调用(根本原因 + 影响范围 + 优先级)
- 调查阶段:4 次调用(日志分析 + 追踪关联 + 指标分析 + 变更关联)
- 修复阶段:2 次调用(修复建议 + 操作手册生成)
- 事后分析阶段:1 次调用(报告生成)
当 8 个工程团队每日处理 200+ 事故时:**每月通过 MiMo API 消耗 16 亿 tokens**。
## 技术栈
- **后端**:FastAPI + Python 3.11
- **数据库**:PostgreSQL 15 + Redis 7
- **AI 引擎**:MiMo LLM API
- **部署**:Docker Compose + Nginx
- **CI/CD**:GitHub Actions
## 许可证
MPL-2.0 — 详见 [LICENSE](LICENSE)
标签:AI代理, IT运维, NIDS, Socks5代理, Web服务器, 事件指挥官, 事后分析, 人工智能, 后端开发, 基础设施监控, 多代理系统, 容器化, 平均恢复时间, 性能分析, 搜索引擎查询, 故障管理, 数据库, 数据摄取, 测试用例, 用户模式Hook绕过, 监控工具, 缓存, 自动化处理, 请求拦截, 逆向工具