kelvin1noye/agentic-cloud-incident-triage-copilot
GitHub: kelvin1noye/agentic-cloud-incident-triage-copilot
一个基于多Agent协作的云事件分流助手,通过结构化工作流实现从故障描述到处置建议的自动化分析。
Stars: 0 | Forks: 0
# agentic-cloud-incident-triage-copilot
Agentic Cloud Incident Triage Copilot 是一个轻量级的 **agentic AI** 项目,旨在展示专业 AI Agent 如何支持云运维和事件响应工作流。
## 概述
本项目模拟了一个针对云环境的 AI 辅助事件分流(triage)工作流。用户提交简短的事件描述,系统通过一系列专业 Agent 进行处理:
- 分析事件
- 检索相关的 runbook 上下文
- 生成可能的根本原因假设
- 推荐即时分流措施
- 审查并完善最终事件简报
## 为什么构建这个项目
我构建这个项目是为了演示在云运维和 DevSecOps 环境中实用的 **基于 Agent 的工作流设计**。其目标是创建一个简单但可信的示例,说明 AI Agent 如何通过结构化的任务交接来支持事件响应决策。
## Agent 工作流
事件输入 → Intake Agent → Retrieval Agent → Hypothesis Agent → Action Planning Agent → Review Agent → Confidence & Escalation Agent → 最终事件简报
### 1. Intake Agent
解析事件并识别可能的严重程度、服务影响和事件类别。
### 2. Retrieval Agent
从本地 runbook 中提取相关的运维上下文。
### 3. Hypothesis Agent
生成可能的根本原因假设,并指出哪些证据可以证实或削弱每个假设。
### 4. Action Planning Agent
制定推荐的分流步骤、回滚注意事项和升级指导。
### 5. Review Agent
在生成最终事件简报之前,审查完整草稿的清晰度、重复内容以及不安全或过度推测的指导建议。
## 示例用例
**输入**
生产环境 API 延迟激增,影响部署后的理赔提交服务
**输出**
结构化的事件简报,包含:
- 事件摘要
- 可能的根本原因
- 即时分流步骤
- 升级指导
- 假设与置信度说明
## 技术栈
- Python
- OpenAI API
- 基于 Markdown 的本地 runbook
- 多 Agent 工作流设计
## 架构
该系统采用多 Agent 工作流,每个 Agent 执行特定的运维任务,然后将结构化输出传递给下一阶段。
事件输入 → Intake Agent → Retrieval Agent → Hypothesis Agent → Action Agent → Review Agent → 最终事件简报
## 示例输出
事件摘要
生产环境 API 延迟在最近一次部署后激增,影响理赔提交服务。
可能的根本原因
1. 最近一次部署引入了低效的数据库查询。
2. 数据库连接池耗尽。
3. 上游依赖延迟导致级联减速。
即时分流步骤
1. 审查部署日志和发布说明。
2. 检查数据库连接池指标。
3. 对比部署前后的延迟指标。
4. 如果部署与问题相关,考虑回滚。
升级指导
如果延迟超过 SLA 阈值,通知应用负责人和事件指挥官。
假设与置信度
基于 runbook 指导和事件模式匹配,置信度为中等。
## 展示的关键概念
- 基于 Agent 的工作流编排
- 使用运维 runbook 的检索增强推理 (Retrieval-augmented reasoning)
- 多 Agent 任务专业化
- 结构化 AI 辅助事件分流
- 面向云运维和 DevSecOps 环境的实用 AI 用例
- 演示
示例终端会话:
$ python app.py
Enter incident description:
Production API latency spike affecting claims service
--- Final Incident Brief ---
[generated response]
## 项目结构
```
cloud-incident-triage-copilot/
├── app.py
├── requirements.txt
├── .env.example
├── .gitignore
├── README.md
├── data/
│ └── runbooks/
│ ├── api_latency.md
│ ├── database_connectivity.md
│ └── deployment_rollback.md
└── agents/
├── __init__.py
├── prompts.py
└── workflow.py
```
标签:Agentic AI, AIOps, Copilot, DevSecOps, IT 运维, LLM 应用, Petitpotam, PyRIT, Runbook 检索, 上游代理, 事件分类, 事件简报, 云事件响应, 假设生成, 决策支持系统, 响应规划, 多智能体系统, 故障排查, 智能运维, 根本原因分析, 运维自动化, 逆向工具, 防御加固