kelvin1noye/agentic-cloud-incident-triage-copilot

GitHub: kelvin1noye/agentic-cloud-incident-triage-copilot

一个基于多Agent协作的云事件分流助手,通过结构化工作流实现从故障描述到处置建议的自动化分析。

Stars: 0 | Forks: 0

# agentic-cloud-incident-triage-copilot Agentic Cloud Incident Triage Copilot 是一个轻量级的 **agentic AI** 项目,旨在展示专业 AI Agent 如何支持云运维和事件响应工作流。 ## 概述 本项目模拟了一个针对云环境的 AI 辅助事件分流(triage)工作流。用户提交简短的事件描述,系统通过一系列专业 Agent 进行处理: - 分析事件 - 检索相关的 runbook 上下文 - 生成可能的根本原因假设 - 推荐即时分流措施 - 审查并完善最终事件简报 ## 为什么构建这个项目 我构建这个项目是为了演示在云运维和 DevSecOps 环境中实用的 **基于 Agent 的工作流设计**。其目标是创建一个简单但可信的示例,说明 AI Agent 如何通过结构化的任务交接来支持事件响应决策。 ## Agent 工作流 事件输入 → Intake Agent → Retrieval Agent → Hypothesis Agent → Action Planning Agent → Review Agent → Confidence & Escalation Agent → 最终事件简报 ### 1. Intake Agent 解析事件并识别可能的严重程度、服务影响和事件类别。 ### 2. Retrieval Agent 从本地 runbook 中提取相关的运维上下文。 ### 3. Hypothesis Agent 生成可能的根本原因假设,并指出哪些证据可以证实或削弱每个假设。 ### 4. Action Planning Agent 制定推荐的分流步骤、回滚注意事项和升级指导。 ### 5. Review Agent 在生成最终事件简报之前,审查完整草稿的清晰度、重复内容以及不安全或过度推测的指导建议。 ## 示例用例 **输入** 生产环境 API 延迟激增,影响部署后的理赔提交服务 **输出** 结构化的事件简报,包含: - 事件摘要 - 可能的根本原因 - 即时分流步骤 - 升级指导 - 假设与置信度说明 ## 技术栈 - Python - OpenAI API - 基于 Markdown 的本地 runbook - 多 Agent 工作流设计 ## 架构 该系统采用多 Agent 工作流,每个 Agent 执行特定的运维任务,然后将结构化输出传递给下一阶段。 事件输入 → Intake Agent → Retrieval Agent → Hypothesis Agent → Action Agent → Review Agent → 最终事件简报 ## 示例输出 事件摘要 生产环境 API 延迟在最近一次部署后激增,影响理赔提交服务。 可能的根本原因 1. 最近一次部署引入了低效的数据库查询。 2. 数据库连接池耗尽。 3. 上游依赖延迟导致级联减速。 即时分流步骤 1. 审查部署日志和发布说明。 2. 检查数据库连接池指标。 3. 对比部署前后的延迟指标。 4. 如果部署与问题相关,考虑回滚。 升级指导 如果延迟超过 SLA 阈值,通知应用负责人和事件指挥官。 假设与置信度 基于 runbook 指导和事件模式匹配,置信度为中等。 ## 展示的关键概念 - 基于 Agent 的工作流编排 - 使用运维 runbook 的检索增强推理 (Retrieval-augmented reasoning) - 多 Agent 任务专业化 - 结构化 AI 辅助事件分流 - 面向云运维和 DevSecOps 环境的实用 AI 用例 - 演示 示例终端会话: $ python app.py Enter incident description: Production API latency spike affecting claims service --- Final Incident Brief --- [generated response] ## 项目结构 ``` cloud-incident-triage-copilot/ ├── app.py ├── requirements.txt ├── .env.example ├── .gitignore ├── README.md ├── data/ │ └── runbooks/ │ ├── api_latency.md │ ├── database_connectivity.md │ └── deployment_rollback.md └── agents/ ├── __init__.py ├── prompts.py └── workflow.py ```
标签:Agentic AI, AIOps, Copilot, DevSecOps, IT 运维, LLM 应用, Petitpotam, PyRIT, Runbook 检索, 上游代理, 事件分类, 事件简报, 云事件响应, 假设生成, 决策支持系统, 响应规划, 多智能体系统, 故障排查, 智能运维, 根本原因分析, 运维自动化, 逆向工具, 防御加固