vinkius-labs/crewai-mcp-it-ops-agents
GitHub: vinkius-labs/crewai-mcp-it-ops-agents
一个基于 CrewAI 与 MCP 的多代理系统,自动化完成 IT 事件的分诊、根因分析与运行手册生成,提升响应效率。
Stars: 0 | Forks: 0
# CrewAI MCP IT Ops 代理
**一个多代理系统,可自动化 IT 事件响应——工单分诊、根本原因分析和运行手册生成——由 CrewAI、Google Gemini 和 5 个生产 MCP 服务器提供支持,服务器来自 [Vinkius AI Gateway](https://vinkius.com)。**
[](LICENSE)
[](https://python.org)
## 小型 IT 团队的瓶颈
小型工程团队面临一个根本性问题:当事件在凌晨 3 点发生时,当值工程师往往从未接触过受影响的服务。他们需要花费前 30 分钟来弄清楚哪里出了问题——在 Jira 中搜索相关工单、检查 PagerDuty 中的相关告警、浏览 Slack 查找团队上下文,以及查阅 Confluence 中可能存在或不存在的运行手册。
**本项目自动化了前 30 分钟。** 三个 AI 代理在一个运行周期内完成事件分诊、根本原因分析和运行手册创建。它们通过 [模型上下文协议 (MCP)](https://modelcontextprotocol.io) 连接团队已使用的工具——Jira、PagerDuty、Sentry、Slack 和 Confluence——直接获取真实数据,而不是猜测。
最终生成一份事件响应文档,为当值工程师提供所需的一切:哪里出错了、为什么出错,以及具体的修复方法。
## 工作原理
### 阶段 1 — 事件分诊
第一个代理搜索上下文。它连接两个 MCP 服务器:
- **Jira Cloud**:相关工单、已打开的问题、最近解决的事件以及标记为此服务的已知错误
- **PagerDuty**:活跃告警、最近事件、当值安排和升级策略
它根据影响范围和业务影响将优先级划分为 P1-P4,并标记是否为具有已知修复的重复问题。
### 阶段 2 — 根本原因分析
第二个代理执行取证。它连接两个 MCP 服务器:
- **Sentry**:错误模式、异常率、堆栈跟踪以及与事件时间线相关联的错误峰值
- **Slack**:部署提及、配置变更和提供上下文的技术讨论
它构建按时间排序的时间线,并将 Sentry 错误与 Slack 部署消息相关联,以确定最近的变更是否可能是导致原因。
### 阶段 3 — 运行手册生成
第三个代理创建运行手册。它连接一个 MCP 服务器:
- **Confluence**:现有服务文档、架构指南和历史运行手册
它生成一个分步故障排除指南,包含精确命令、预期输出、回退步骤、升级路径和预防措施——为从未接触过该服务的人编写。
## 仅需 5 个 MCP 服务器
| MCP 服务器 | 代理 | 用途 |
|---|---|---|
| [jira-cloud-mcp](https://vinkius.com/en/apps/jira-cloud-mcp) | 事件分诊 | 工单、问题、历史事件 |
| [pagerduty-mcp](https://vinkius.com/en/apps/pagerduty-mcp) | 事件分诊 | 活跃告警、当值安排 |
| [sentry-mcp](https://vinkius.com/en/apps/sentry-mcp) | 根本原因分析 | 错误、堆栈跟踪、错误率 |
| [slack-mcp](https://vinkius.com/en/apps/slack-mcp) | 根本原因分析 | 部署提及、团队上下文 |
| [confluence-mcp](https://vinkius.com/en/apps/confluence-mcp) | 运行手册编写 | 服务文档、架构指南 |
所有服务均托管在 [Vinkius AI Gateway](https://vinkius.com) 上。每个服务均可在一分钟内部署完成。
### 想要扩展?
[Vinkius AI Gateway](https://vinkius.com) 提供额外的运维 MCP 服务器:
- [datadog-mcp](https://vinkius.com/en/apps/datadog-mcp) — 指标、仪表板和 APM 跟踪
- [opsgenie-mcp](https://vinkius.com/en/apps/opsgenie-mcp) — PagerDuty 替代方案
- [servicenow-mcp](https://vinkius.com/en/apps/servicenow-mcp) — 企业 ITSM
- [linear-mcp](https://vinkius.com/en/apps/linear-mcp) — Jira 替代方案
- [uptimerobot-mcp](https://vinkius.com/en/apps/uptimerobot-mcp) — 可用性监控
- [pingdom-mcp](https://vinkius.com/en/apps/pingdom-mcp) — 综合监控
- [freshdesk-mcp](https://vinkius.com/en/apps/freshdesk-mcp) — 客服工单
- [notion-mcp](https://vinkius.com/en/apps/notion-mcp) — 替代知识库
浏览完整的 **2,600 多个生产就绪 MCP 服务器** 目录:[vinkius.com/en/categories](https://vinkius.com/en/categories)
## 快速开始
### 安装
```
git clone https://github.com/vinkius-labs/crewai-mcp-it-ops-agents.git
cd crewai-mcp-it-ops-agents
python -m venv .venv && source .venv/bin/activate
pip install -e .
```
### 配置
```
cp .env.example .env
# 添加您的 Gemini API 密钥和 5 个 Vinkius MCP URL
```
### 使用
```
# 验证
it-ops validate
# 调查事件
it-ops investigate "payments-api" "Error rate spiked to 15% on /checkout endpoint"
# 数据库问题
it-ops investigate "user-db" "Connection pool exhausted, queries timing out after 30s"
# 身份验证服务
it-ops investigate "auth-service" "Users unable to log in, getting 503 errors"
```
## 生成的报告结构
| 章节 | 内容 |
|---|---|
| 分诊摘要 | 优先级、相关工单、历史匹配 |
| 根本原因分析 | 可能原因、证据、错误模式、时间线 |
| 影响范围 | 受影响的用户、端点和服务 |
| 运行手册 | 带有预期输出的分步命令 |
| 升级路径 | 如果运行手册无法解决时联系的对象 |
| 预防措施 | 防止复发的方法 |
## 技术细节
- **框架:** [CrewAI](https://crewai.com)(Flows 和 `@CrewBase`)
- **大语言模型:** Google Gemini 2.0 Flash(兼容免费层级)
- **状态管理:** Pydantic — `IncidentSummary`、`RootCauseAnalysis`、`Runbook`
- **命令行工具:** Typer 搭配 Rich 控制台输出
## 常见问题
### 什么是 MCP?
模型上下文协议(MCP)是一种用于连接 AI 与外部工具的开源标准。更多信息请访问 [modelcontextprotocol.io](https://modelcontextprotocol.io)。
### 可以用 Linear 替代 Jira 吗?
可以。请在配置中将 `jira-cloud-mcp` 替换为 [linear-mcp](https://vinkius.com/en/apps/linear-mcp)。
### 这会替代我的当值工程师吗?
不会。它只是加速他们的工作。工程师不再需要花费 30 分钟收集上下文,而是可以直接获得预先构建的事件报告,从而立即开始解决问题。
## 许可证
MIT — 参见 [LICENSE](LICENSE)。
由 [Vinkius Labs](https://vinkius.com) 使用 [CrewAI](https://crewai.com) 和 [Vinkius AI Gateway](https://vinkius.com) 构建。
标签:AIOps, AI智能体, AI网关, Confluence, CrewAI, DNS解析, ITOps, IT运维, Jira, MCP, PagerDuty, PyRIT, Python, Ruby, Sentry, Slack, Socks5代理, Vinkius AI Gateway, 告警管理, 多智能体系统, 开源项目, 技术栈, 搜索引擎优化, 无后门, 根因分析, 模型上下文协议, 生产环境, 知识库, 票务分类, 票务系统, 自动化文档, 自动化运维, 运行手册生成, 逆向工具