chennojirajashekar/agentic-devops-copilot

GitHub: chennojirajashekar/agentic-devops-copilot

一个基于 Azure 与多代理编排的 DevOps 自动化协动系统,旨在实现从告警到修复的安全、高效事件响应。

Stars: 0 | Forks: 0

# 🤖 Agentic DevOps Copilot [![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) [![Azure](https://img.shields.io/badge/Azure-0078D4?logo=microsoft-azure&logoColor=white)](https://azure.microsoft.com) [![Microsoft Agent Framework](https://img.shields.io/badge/Agent_Framework-5E5E5E?logo=microsoft&logoColor=white)](https://learn.microsoft.com/azure/ai-services/agents/) ## 🎯 概述 **Agentic DevOps Copilot** 通过编排一组专门的人工智能代理来协同工作,自动检测、诊断和解决生产事件,从而改变团队对生产事件的响应方式。该项目是在 **Agentic DevOps** 挑战下,为 **Microsoft AI Dev Days Hackathon** 构建的。 ### 问题 - **手动事件响应**导致停机时间延长和开发者倦怠 - **在告警、日志、代码和部署工具之间切换**浪费宝贵的平均恢复时间(MTTR) - **知识孤岛**意味着只有资深工程师才能诊断复杂问题 - **紧急修复中的人为错误**常常导致级联故障 ### 我们的解决方案 一个多代理编排系统,能够: ✅ **实时摄取** Azure Monitor/Application Insights 的告警 ✅ **分析** 日志、指标和追踪,执行根本原因分析 ✅ **提出** 代码修复、配置更改或回滚策略 ✅ **审查** 变更的安全性、SLO 影响和合规性 ✅ **执行** 通过 CI/CD 管道进行部署,并包含人工介入审批 ## 🏗️ 架构 ``` ┌─────────────────────────────────────────────────────────────┐ │ Production Environment │ │ ┌──────────┐ ┌──────────┐ ┌─────────────────────┐ │ │ │ App │ │ Azure │ │ Application │ │ │ │ Services │──▶│ Monitor │──▶│ Insights │ │ │ └──────────┘ └──────────┘ └─────────────────────┘ │ └─────────────────────────────┬───────────────────────────────┘ │ Alerts ▼ ┌─────────────────────────────────────────────────────────────┐ │ Microsoft AI Foundry Agent Service │ │ ┌────────────────────────────────────────────────────────┐│ │ │ Multi-Agent Orchestration Workflow ││ │ │ ││ │ │ ┌─────────────┐ ┌──────────────┐ ┌──────────┐ ││ │ │ │ Alert │───▶│ Root Cause │───▶│ Code │ ││ │ │ │ Ingestor │ │ Analysis │ │ Fix │ ││ │ │ │ Agent │ │ Agent │ │ Agent │ ││ │ │ └─────────────┘ └──────────────┘ └──────────┘ ││ │ │ │ │ │ ││ │ │ └───────────────────┴───────────────────┘ ││ │ │ │ ││ │ │ ▼ ││ │ │ ┌─────────────────┐ ││ │ │ │ SRE Reviewer │ ││ │ │ │ Agent │ ││ │ │ └─────────────────┘ ││ │ │ │ ││ │ │ ▼ ││ │ │ ┌─────────────────┐ ││ │ │ │ Change Manager │ ││ │ │ │ Agent │ ││ │ │ └─────────────────┘ ││ │ └────────────────────────────────────────────────────────┘│ │ │ │ Shared Resources: │ │ • Thread Storage • File Storage • Search Indexes │ │ • Observability Dashboard • RBAC & Governance │ └─────────────────────────┬───────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────┐ │ GitHub / Azure DevOps │ │ CI/CD Pipelines │ │ Azure Functions / Container Apps │ └─────────────────────────────────────┘ ``` ### 代理职责 | 代理 | 目的 | 关键能力 | |-------|---------|------------------| | **告警摄取器** | 订阅监控事件 | 规范化 Azure Monitor/App Insights 的告警,创建结构化的事件记录 | | **根因分析** | 诊断问题 | 相关联日志、指标、追踪;识别故障服务/提交;提取错误模式 | | **代码修复** | 生成修复方案 | 使用仓库上下文提出代码补丁、配置更改或回滚策略 | | **SRE 审核员** | 安全验证 | 检查 SLO 影响、爆炸半径、安全策略和合规要求 | | **变更管理器** | 编排 rollout | 管理部署计划、门槛、审批,并触发 Azure Functions/管道 | ## 🚀 关键特性 ### 1. **多代理协作** - 基于 **Microsoft Agent Framework** 构建,用于代理编排 - 代理通过 **A2A(Agent-to-Agent)协议**通信 - 通过 Foundry 的线程存储和文件存储共享上下文 ### 2. **Azure 原生集成** - **Azure AI Services**(Azure OpenAI)用于推理和代码生成 - **Azure Monitor & Application Insights** 用于可观测性数据 - **Azure DevOps / GitHub** 用于源代码控制和 CI/CD - **Azure Functions / Container Apps** 用于自动修复 - **Azure 数据库**(Cosmos DB / SQL)用于状态和策略存储 ### 3. **企业级就绪** - **治理**:通过 Foundry 的 RBAC、审计日志和策略执行 - **可观测性**:内置监控仪表板和评估指标 - **安全性**:密钥管理、最小权限访问、加密存储 - **可扩展性**:在 Azure AI Foundry Agent Service 上运行,支持自动扩展 ### 4. **人工介入循环** - 执行高风险变更前的审批门 - 用于实时监控和干预的交互式仪表板 - 可配置的自动化级别(仅通知 → 自动修复) ## 🛠️ 技术栈 - **AI 平台**:Microsoft AI Foundry、Azure AI Services(Azure OpenAI GPT-4) - **代理框架**:Microsoft Agent Framework(Python SDK) - **云**:Azure(App Service、Container Apps、Functions、Monitor、DevOps) - **语言**:Python 3.11+、TypeScript - **前端**:React、TailwindCSS - **数据库**:Azure Cosmos DB / Azure SQL - **CI/CD**:GitHub Actions / Azure Pipelines - **IaC**:Azure Bicep / Terraform ## 📦 项目结构 ``` agentic-devops-copilot/ ├── agents/ # Agent implementations │ ├── alert_ingestor/ │ ├── rca_agent/ │ ├── code_fix_agent/ │ ├── sre_reviewer/ │ └── change_manager/ ├── workflows/ # Multi-agent orchestration workflows ├── integrations/ # Azure service connectors │ ├── azure_monitor.py │ ├── github_client.py │ └── azure_devops.py ├── frontend/ # React dashboard ├── infra/ # Azure infrastructure as code ├── tests/ # Unit and integration tests ├── docs/ # Documentation └── README.md ``` ## 🎓 快速开始 ### 先决条件 - 具备 AI Foundry 访问权限的 Azure 订阅 - Python 3.11+ - Azure CLI - GitHub 或 Azure DevOps 账户 ### 设置 ``` # 克隆仓库 git clone https://github.com/chennojirajashekar/agentic-devops-copilot.git cd agentic-devops-copilot # 安装依赖项 pip install -r requirements.txt # 配置 Azure 凭据 az login az account set --subscription "YOUR_SUBSCRIPTION_ID" # 设置环境变量 cp .env.example .env # 使用 Azure AI Foundry 项目详细信息编辑 .env # 部署基础设施 cd infra az deployment group create --resource-group rg-agentic-devops --template-file main.bicep # 本地运行 python main.py ``` ## 🎯 黑客松对齐 ### 挑战:**自动化和优化软件交付 - Agentic DevOps** 我们的项目直接满足挑战标准: ✅ **CI/CD 自动化**:代理触发并管理管道运行、审批和发布 ✅ **事件响应**:从告警到已验证修复的端到端自动化 ✅ **可靠性工程**:SRE 代理强制执行 SLO、检查爆炸半径、验证策略 ### 我们瞄准的奖项类别 1. **大奖 - Agentic DevOps**(主要) 2. **最佳多代理系统**(使用 Agent Framework 的复杂编排) 3. **最佳 Azure 集成**(与 5 多个 Azure 服务深度集成) 4. **最佳使用 Microsoft Foundry**(利用项目、存储、可观测性和治理) ## 🌟 演示场景 **事件**:支付服务中的内存泄漏导致 500 错误。 1. **告警摄取器**接收 Azure Monitor 关于高错误率的告警 2. **根因分析代理**关联 Application Insights 追踪,识别提交 `abc123` 中的内存泄漏 3. **代码修复代理**提出回滚到上一个稳定提交 4. **SRE 审核员**验证:✅ SLO 影响可接受,✅ 无安全问题,✅ 回滚风险低 5. **变更管理器**创建 GitHub PR,运行 CI 测试,请求人工审批 6. 开发者批准 → 代理触发 Azure 管道 → 服务在 8 分钟内恢复 **结果**:MTTR 从 45 分钟(手动)减少到 8 分钟(代理化) ## 📊 影响与收益 - **平均恢复时间(MTTR)减少 80%** - **24/7 覆盖,无需值班疲劳** - **知识民主化**:初级工程师也能从 AI 辅助诊断中受益 - **审计追踪**:每个决策都被记录,用于合规和学习 - **可扩展**:能够同时处理数百个服务的事件 ## 🗺️ 路线图 - [ ] **阶段 1**:核心代理 + 基本工作流(黑客松 MVP) - [ ] **阶段 2**:使用 ML 异常检测的高级根因分析 - [ ] **阶段 3**:从过去事件中自我学习(强化学习) - [ ] **阶段 4**:与 Microsoft Teams 集成以发送通知 - [ ] **阶段 5**:多云支持(AWS、GCP) ## 📄 许可证 本项目根据 MIT 许可证授权 - 详细信息请参阅 [LICENSE](LICENSE) 文件。 ## 👥 团队 **Rajashekar Chennoji** 🎓 学生,IGNOU 海得拉巴 💼 Azure 与 AI 爱好者 🔗 [LinkedIn](https://linkedin.com/in/) | [GitHub](https://github.com/chennojirajashekar) ## 📞 联系 如有疑问或合作机会: - **电子邮件**:hackathonsupport@microsoft.com - **GitHub 问题**:[创建问题](https://github.com/chennojirajashekar/agentic-devops-copilot/issues) **用心构建,为 Microsoft AI Dev Days Hackathon 2026 而建**
标签:Agentic DevOps, Agentic DevOps挑战, AI代理, Application Insights, Azure Monitor, CI/CD自动化, DevOps自动化, Microsoft Agent Framework, PyRIT, SLO合规, 事件响应自动化, 人机协同, 代码修复建议, 分布式追踪, 变更审查, 回滚策略, 多智能体系统, 安全部署, 开源, 微软AI开发日, 指标监控, 根因分析, 生产环境自动化, 逆向工具, 配置变更