vinkius-labs/crewai-mcp-it-ops-agents

GitHub: vinkius-labs/crewai-mcp-it-ops-agents

一个基于 CrewAI 与 MCP 的多代理系统,自动化完成 IT 事件的分诊、根因分析与运行手册生成,提升响应效率。

Stars: 0 | Forks: 0

# CrewAI MCP IT Ops 代理 **一个多代理系统,可自动化 IT 事件响应——工单分诊、根本原因分析和运行手册生成——由 CrewAI、Google Gemini 和 5 个生产 MCP 服务器提供支持,服务器来自 [Vinkius AI Gateway](https://vinkius.com)。** [![License: MIT](https://img.shields.io/badge/License-MIT-blue.svg)](LICENSE) [![Python 3.11+](https://img.shields.io/badge/Python-3.11+-blue.svg)](https://python.org) ## 小型 IT 团队的瓶颈 小型工程团队面临一个根本性问题:当事件在凌晨 3 点发生时,当值工程师往往从未接触过受影响的服务。他们需要花费前 30 分钟来弄清楚哪里出了问题——在 Jira 中搜索相关工单、检查 PagerDuty 中的相关告警、浏览 Slack 查找团队上下文,以及查阅 Confluence 中可能存在或不存在的运行手册。 **本项目自动化了前 30 分钟。** 三个 AI 代理在一个运行周期内完成事件分诊、根本原因分析和运行手册创建。它们通过 [模型上下文协议 (MCP)](https://modelcontextprotocol.io) 连接团队已使用的工具——Jira、PagerDuty、Sentry、Slack 和 Confluence——直接获取真实数据,而不是猜测。 最终生成一份事件响应文档,为当值工程师提供所需的一切:哪里出错了、为什么出错,以及具体的修复方法。 ## 工作原理 ### 阶段 1 — 事件分诊 第一个代理搜索上下文。它连接两个 MCP 服务器: - **Jira Cloud**:相关工单、已打开的问题、最近解决的事件以及标记为此服务的已知错误 - **PagerDuty**:活跃告警、最近事件、当值安排和升级策略 它根据影响范围和业务影响将优先级划分为 P1-P4,并标记是否为具有已知修复的重复问题。 ### 阶段 2 — 根本原因分析 第二个代理执行取证。它连接两个 MCP 服务器: - **Sentry**:错误模式、异常率、堆栈跟踪以及与事件时间线相关联的错误峰值 - **Slack**:部署提及、配置变更和提供上下文的技术讨论 它构建按时间排序的时间线,并将 Sentry 错误与 Slack 部署消息相关联,以确定最近的变更是否可能是导致原因。 ### 阶段 3 — 运行手册生成 第三个代理创建运行手册。它连接一个 MCP 服务器: - **Confluence**:现有服务文档、架构指南和历史运行手册 它生成一个分步故障排除指南,包含精确命令、预期输出、回退步骤、升级路径和预防措施——为从未接触过该服务的人编写。 ## 仅需 5 个 MCP 服务器 | MCP 服务器 | 代理 | 用途 | |---|---|---| | [jira-cloud-mcp](https://vinkius.com/en/apps/jira-cloud-mcp) | 事件分诊 | 工单、问题、历史事件 | | [pagerduty-mcp](https://vinkius.com/en/apps/pagerduty-mcp) | 事件分诊 | 活跃告警、当值安排 | | [sentry-mcp](https://vinkius.com/en/apps/sentry-mcp) | 根本原因分析 | 错误、堆栈跟踪、错误率 | | [slack-mcp](https://vinkius.com/en/apps/slack-mcp) | 根本原因分析 | 部署提及、团队上下文 | | [confluence-mcp](https://vinkius.com/en/apps/confluence-mcp) | 运行手册编写 | 服务文档、架构指南 | 所有服务均托管在 [Vinkius AI Gateway](https://vinkius.com) 上。每个服务均可在一分钟内部署完成。 ### 想要扩展? [Vinkius AI Gateway](https://vinkius.com) 提供额外的运维 MCP 服务器: - [datadog-mcp](https://vinkius.com/en/apps/datadog-mcp) — 指标、仪表板和 APM 跟踪 - [opsgenie-mcp](https://vinkius.com/en/apps/opsgenie-mcp) — PagerDuty 替代方案 - [servicenow-mcp](https://vinkius.com/en/apps/servicenow-mcp) — 企业 ITSM - [linear-mcp](https://vinkius.com/en/apps/linear-mcp) — Jira 替代方案 - [uptimerobot-mcp](https://vinkius.com/en/apps/uptimerobot-mcp) — 可用性监控 - [pingdom-mcp](https://vinkius.com/en/apps/pingdom-mcp) — 综合监控 - [freshdesk-mcp](https://vinkius.com/en/apps/freshdesk-mcp) — 客服工单 - [notion-mcp](https://vinkius.com/en/apps/notion-mcp) — 替代知识库 浏览完整的 **2,600 多个生产就绪 MCP 服务器** 目录:[vinkius.com/en/categories](https://vinkius.com/en/categories) ## 快速开始 ### 安装 ``` git clone https://github.com/vinkius-labs/crewai-mcp-it-ops-agents.git cd crewai-mcp-it-ops-agents python -m venv .venv && source .venv/bin/activate pip install -e . ``` ### 配置 ``` cp .env.example .env # 添加您的 Gemini API 密钥和 5 个 Vinkius MCP URL ``` ### 使用 ``` # 验证 it-ops validate # 调查事件 it-ops investigate "payments-api" "Error rate spiked to 15% on /checkout endpoint" # 数据库问题 it-ops investigate "user-db" "Connection pool exhausted, queries timing out after 30s" # 身份验证服务 it-ops investigate "auth-service" "Users unable to log in, getting 503 errors" ``` ## 生成的报告结构 | 章节 | 内容 | |---|---| | 分诊摘要 | 优先级、相关工单、历史匹配 | | 根本原因分析 | 可能原因、证据、错误模式、时间线 | | 影响范围 | 受影响的用户、端点和服务 | | 运行手册 | 带有预期输出的分步命令 | | 升级路径 | 如果运行手册无法解决时联系的对象 | | 预防措施 | 防止复发的方法 | ## 技术细节 - **框架:** [CrewAI](https://crewai.com)(Flows 和 `@CrewBase`) - **大语言模型:** Google Gemini 2.0 Flash(兼容免费层级) - **状态管理:** Pydantic — `IncidentSummary`、`RootCauseAnalysis`、`Runbook` - **命令行工具:** Typer 搭配 Rich 控制台输出 ## 常见问题 ### 什么是 MCP? 模型上下文协议(MCP)是一种用于连接 AI 与外部工具的开源标准。更多信息请访问 [modelcontextprotocol.io](https://modelcontextprotocol.io)。 ### 可以用 Linear 替代 Jira 吗? 可以。请在配置中将 `jira-cloud-mcp` 替换为 [linear-mcp](https://vinkius.com/en/apps/linear-mcp)。 ### 这会替代我的当值工程师吗? 不会。它只是加速他们的工作。工程师不再需要花费 30 分钟收集上下文,而是可以直接获得预先构建的事件报告,从而立即开始解决问题。 ## 许可证 MIT — 参见 [LICENSE](LICENSE)。 由 [Vinkius Labs](https://vinkius.com) 使用 [CrewAI](https://crewai.com) 和 [Vinkius AI Gateway](https://vinkius.com) 构建。
标签:AIOps, AI智能体, AI网关, Confluence, CrewAI, DNS解析, ITOps, IT运维, Jira, MCP, PagerDuty, PyRIT, Python, Ruby, Sentry, Slack, Socks5代理, Vinkius AI Gateway, 告警管理, 多智能体系统, 开源项目, 技术栈, 搜索引擎优化, 无后门, 根因分析, 模型上下文协议, 生产环境, 知识库, 票务分类, 票务系统, 自动化文档, 自动化运维, 运行手册生成, 逆向工具