Minaubuhu728/incident-commander

GitHub: Minaubuhu728/incident-commander

这是一个由MiMo AI驱动的多智能体事故响应平台，用于自动化基础设施事故的检测、分类、调查、修复和事后分析。

Stars: 0 | Forks: 0

# 🔥 事故指挥官由 MiMo AI 驱动的智能体事故响应平台。五个专业 AI 智能体在顺序流水线中工作，用于基础设施事故的检测、分类、调查、修复和事后分析报告生成。 ## 架构 ``` ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ Detect │───▶│ Triage │───▶│ Investigate │───▶│ Remediate │───▶│ PostMortem │ │ Agent │ │ Agent │ │ Agent │ │ Agent │ │ Agent │ └─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘ │ │ │ │ │ ▼ ▼ ▼ ▼ ▼ Severity Root Cause Deep Analysis Fix Suggestions Incident Report Classification Assessment Log/Trace/MTTR Runbook Gen Action Items ``` ## 功能特性 - **5 个专业 AI 智能体** — 每个智能体处理事故响应的特定阶段 - **实时流水线** — 事故自动流经所有智能体处理 - **多源数据接入** — 支持 PagerDuty、Datadog、Grafana、Slack 网络钩子 - **分析仪表板** — 展示 MTTR 趋势、解决率、智能体性能指标 - **Docker 部署** — 包含 PostgreSQL、Redis 和 Nginx 的全栈部署方案 ## 快速启动 ``` # 克隆与设置 git clone https://github.com/Minaubuhu728/incident-commander.git cd incident-commander cp config/production.yaml.example config/production.yaml # Docker 部署 docker-compose up -d # 访问仪表盘 open http://localhost:8080 ``` ## 智能体流水线 ### 1. 检测智能体监控来自多个来源（PagerDuty、Datadog、Grafana）的传入警报。对严重程度进行分类（P0-P4）并提取关键元数据。 ### 2. 分类智能体分析事故上下文，确定根本原因假设和影响范围评估。 ### 3. 调查智能体深入分析日志、追踪和指标数据。关联近期部署和配置变更信息。 ### 4. 修复智能体生成修复建议，创建操作手册，并可触发自动化修复工作流。 ### 5. 事后分析智能体创建包含时间线、根本原因分析和行动项目的综合性事故报告。 ## Token 消耗每个事故流经 5 个智能体，平均进行 12 次 LLM 调用： - 检测阶段：2 次调用（分类 + 元数据提取） - 分类阶段：3 次调用（根本原因 + 影响范围 + 优先级） - 调查阶段：4 次调用（日志分析 + 追踪关联 + 指标分析 + 变更关联） - 修复阶段：2 次调用（修复建议 + 操作手册生成） - 事后分析阶段：1 次调用（报告生成）当 8 个工程团队每日处理 200+ 事故时：**每月通过 MiMo API 消耗 16 亿 tokens**。 ## 技术栈 - **后端**：FastAPI + Python 3.11 - **数据库**：PostgreSQL 15 + Redis 7 - **AI 引擎**：MiMo LLM API - **部署**：Docker Compose + Nginx - **CI/CD**：GitHub Actions ## 许可证 MPL-2.0 — 详见 [LICENSE](LICENSE)

标签：AI代理, IT运维, NIDS, Socks5代理, Web服务器, 事件指挥官, 事后分析, 人工智能, 后端开发, 基础设施监控, 多代理系统, 容器化, 平均恢复时间, 性能分析, 搜索引擎查询, 故障管理, 数据库, 数据摄取, 测试用例, 用户模式Hook绕过, 监控工具, 缓存, 自动化处理, 请求拦截, 逆向工具