Minaubuhu728/incident-commander

GitHub: Minaubuhu728/incident-commander

这是一个由MiMo AI驱动的多智能体事故响应平台,用于自动化基础设施事故的检测、分类、调查、修复和事后分析。

Stars: 0 | Forks: 0

# 🔥 事故指挥官 由 MiMo AI 驱动的智能体事故响应平台。五个专业 AI 智能体在顺序流水线中工作,用于基础设施事故的检测、分类、调查、修复和事后分析报告生成。 ## 架构 ``` ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ Detect │───▶│ Triage │───▶│ Investigate │───▶│ Remediate │───▶│ PostMortem │ │ Agent │ │ Agent │ │ Agent │ │ Agent │ │ Agent │ └─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘ │ │ │ │ │ ▼ ▼ ▼ ▼ ▼ Severity Root Cause Deep Analysis Fix Suggestions Incident Report Classification Assessment Log/Trace/MTTR Runbook Gen Action Items ``` ## 功能特性 - **5 个专业 AI 智能体** — 每个智能体处理事故响应的特定阶段 - **实时流水线** — 事故自动流经所有智能体处理 - **多源数据接入** — 支持 PagerDuty、Datadog、Grafana、Slack 网络钩子 - **分析仪表板** — 展示 MTTR 趋势、解决率、智能体性能指标 - **Docker 部署** — 包含 PostgreSQL、Redis 和 Nginx 的全栈部署方案 ## 快速启动 ``` # 克隆与设置 git clone https://github.com/Minaubuhu728/incident-commander.git cd incident-commander cp config/production.yaml.example config/production.yaml # Docker 部署 docker-compose up -d # 访问仪表盘 open http://localhost:8080 ``` ## 智能体流水线 ### 1. 检测智能体 监控来自多个来源(PagerDuty、Datadog、Grafana)的传入警报。对严重程度进行分类(P0-P4)并提取关键元数据。 ### 2. 分类智能体 分析事故上下文,确定根本原因假设和影响范围评估。 ### 3. 调查智能体 深入分析日志、追踪和指标数据。关联近期部署和配置变更信息。 ### 4. 修复智能体 生成修复建议,创建操作手册,并可触发自动化修复工作流。 ### 5. 事后分析智能体 创建包含时间线、根本原因分析和行动项目的综合性事故报告。 ## Token 消耗 每个事故流经 5 个智能体,平均进行 12 次 LLM 调用: - 检测阶段:2 次调用(分类 + 元数据提取) - 分类阶段:3 次调用(根本原因 + 影响范围 + 优先级) - 调查阶段:4 次调用(日志分析 + 追踪关联 + 指标分析 + 变更关联) - 修复阶段:2 次调用(修复建议 + 操作手册生成) - 事后分析阶段:1 次调用(报告生成) 当 8 个工程团队每日处理 200+ 事故时:**每月通过 MiMo API 消耗 16 亿 tokens**。 ## 技术栈 - **后端**:FastAPI + Python 3.11 - **数据库**:PostgreSQL 15 + Redis 7 - **AI 引擎**:MiMo LLM API - **部署**:Docker Compose + Nginx - **CI/CD**:GitHub Actions ## 许可证 MPL-2.0 — 详见 [LICENSE](LICENSE)
标签:AI代理, IT运维, NIDS, Socks5代理, Web服务器, 事件指挥官, 事后分析, 人工智能, 后端开发, 基础设施监控, 多代理系统, 容器化, 平均恢复时间, 性能分析, 搜索引擎查询, 故障管理, 数据库, 数据摄取, 测试用例, 用户模式Hook绕过, 监控工具, 缓存, 自动化处理, 请求拦截, 逆向工具