chennojirajashekar/agentic-devops-copilot
GitHub: chennojirajashekar/agentic-devops-copilot
一个基于 Azure 与多代理编排的 DevOps 自动化协动系统,旨在实现从告警到修复的安全、高效事件响应。
Stars: 0 | Forks: 0
# 🤖 Agentic DevOps Copilot
[](https://opensource.org/licenses/MIT)
[](https://azure.microsoft.com)
[](https://learn.microsoft.com/azure/ai-services/agents/)
## 🎯 概述
**Agentic DevOps Copilot** 通过编排一组专门的人工智能代理来协同工作,自动检测、诊断和解决生产事件,从而改变团队对生产事件的响应方式。该项目是在 **Agentic DevOps** 挑战下,为 **Microsoft AI Dev Days Hackathon** 构建的。
### 问题
- **手动事件响应**导致停机时间延长和开发者倦怠
- **在告警、日志、代码和部署工具之间切换**浪费宝贵的平均恢复时间(MTTR)
- **知识孤岛**意味着只有资深工程师才能诊断复杂问题
- **紧急修复中的人为错误**常常导致级联故障
### 我们的解决方案
一个多代理编排系统,能够:
✅ **实时摄取** Azure Monitor/Application Insights 的告警
✅ **分析** 日志、指标和追踪,执行根本原因分析
✅ **提出** 代码修复、配置更改或回滚策略
✅ **审查** 变更的安全性、SLO 影响和合规性
✅ **执行** 通过 CI/CD 管道进行部署,并包含人工介入审批
## 🏗️ 架构
```
┌─────────────────────────────────────────────────────────────┐
│ Production Environment │
│ ┌──────────┐ ┌──────────┐ ┌─────────────────────┐ │
│ │ App │ │ Azure │ │ Application │ │
│ │ Services │──▶│ Monitor │──▶│ Insights │ │
│ └──────────┘ └──────────┘ └─────────────────────┘ │
└─────────────────────────────┬───────────────────────────────┘
│ Alerts
▼
┌─────────────────────────────────────────────────────────────┐
│ Microsoft AI Foundry Agent Service │
│ ┌────────────────────────────────────────────────────────┐│
│ │ Multi-Agent Orchestration Workflow ││
│ │ ││
│ │ ┌─────────────┐ ┌──────────────┐ ┌──────────┐ ││
│ │ │ Alert │───▶│ Root Cause │───▶│ Code │ ││
│ │ │ Ingestor │ │ Analysis │ │ Fix │ ││
│ │ │ Agent │ │ Agent │ │ Agent │ ││
│ │ └─────────────┘ └──────────────┘ └──────────┘ ││
│ │ │ │ │ ││
│ │ └───────────────────┴───────────────────┘ ││
│ │ │ ││
│ │ ▼ ││
│ │ ┌─────────────────┐ ││
│ │ │ SRE Reviewer │ ││
│ │ │ Agent │ ││
│ │ └─────────────────┘ ││
│ │ │ ││
│ │ ▼ ││
│ │ ┌─────────────────┐ ││
│ │ │ Change Manager │ ││
│ │ │ Agent │ ││
│ │ └─────────────────┘ ││
│ └────────────────────────────────────────────────────────┘│
│ │
│ Shared Resources: │
│ • Thread Storage • File Storage • Search Indexes │
│ • Observability Dashboard • RBAC & Governance │
└─────────────────────────┬───────────────────────────────────┘
│
▼
┌─────────────────────────────────────┐
│ GitHub / Azure DevOps │
│ CI/CD Pipelines │
│ Azure Functions / Container Apps │
└─────────────────────────────────────┘
```
### 代理职责
| 代理 | 目的 | 关键能力 |
|-------|---------|------------------|
| **告警摄取器** | 订阅监控事件 | 规范化 Azure Monitor/App Insights 的告警,创建结构化的事件记录 |
| **根因分析** | 诊断问题 | 相关联日志、指标、追踪;识别故障服务/提交;提取错误模式 |
| **代码修复** | 生成修复方案 | 使用仓库上下文提出代码补丁、配置更改或回滚策略 |
| **SRE 审核员** | 安全验证 | 检查 SLO 影响、爆炸半径、安全策略和合规要求 |
| **变更管理器** | 编排 rollout | 管理部署计划、门槛、审批,并触发 Azure Functions/管道 |
## 🚀 关键特性
### 1. **多代理协作**
- 基于 **Microsoft Agent Framework** 构建,用于代理编排
- 代理通过 **A2A(Agent-to-Agent)协议**通信
- 通过 Foundry 的线程存储和文件存储共享上下文
### 2. **Azure 原生集成**
- **Azure AI Services**(Azure OpenAI)用于推理和代码生成
- **Azure Monitor & Application Insights** 用于可观测性数据
- **Azure DevOps / GitHub** 用于源代码控制和 CI/CD
- **Azure Functions / Container Apps** 用于自动修复
- **Azure 数据库**(Cosmos DB / SQL)用于状态和策略存储
### 3. **企业级就绪**
- **治理**:通过 Foundry 的 RBAC、审计日志和策略执行
- **可观测性**:内置监控仪表板和评估指标
- **安全性**:密钥管理、最小权限访问、加密存储
- **可扩展性**:在 Azure AI Foundry Agent Service 上运行,支持自动扩展
### 4. **人工介入循环**
- 执行高风险变更前的审批门
- 用于实时监控和干预的交互式仪表板
- 可配置的自动化级别(仅通知 → 自动修复)
## 🛠️ 技术栈
- **AI 平台**:Microsoft AI Foundry、Azure AI Services(Azure OpenAI GPT-4)
- **代理框架**:Microsoft Agent Framework(Python SDK)
- **云**:Azure(App Service、Container Apps、Functions、Monitor、DevOps)
- **语言**:Python 3.11+、TypeScript
- **前端**:React、TailwindCSS
- **数据库**:Azure Cosmos DB / Azure SQL
- **CI/CD**:GitHub Actions / Azure Pipelines
- **IaC**:Azure Bicep / Terraform
## 📦 项目结构
```
agentic-devops-copilot/
├── agents/ # Agent implementations
│ ├── alert_ingestor/
│ ├── rca_agent/
│ ├── code_fix_agent/
│ ├── sre_reviewer/
│ └── change_manager/
├── workflows/ # Multi-agent orchestration workflows
├── integrations/ # Azure service connectors
│ ├── azure_monitor.py
│ ├── github_client.py
│ └── azure_devops.py
├── frontend/ # React dashboard
├── infra/ # Azure infrastructure as code
├── tests/ # Unit and integration tests
├── docs/ # Documentation
└── README.md
```
## 🎓 快速开始
### 先决条件
- 具备 AI Foundry 访问权限的 Azure 订阅
- Python 3.11+
- Azure CLI
- GitHub 或 Azure DevOps 账户
### 设置
```
# 克隆仓库
git clone https://github.com/chennojirajashekar/agentic-devops-copilot.git
cd agentic-devops-copilot
# 安装依赖项
pip install -r requirements.txt
# 配置 Azure 凭据
az login
az account set --subscription "YOUR_SUBSCRIPTION_ID"
# 设置环境变量
cp .env.example .env
# 使用 Azure AI Foundry 项目详细信息编辑 .env
# 部署基础设施
cd infra
az deployment group create --resource-group rg-agentic-devops --template-file main.bicep
# 本地运行
python main.py
```
## 🎯 黑客松对齐
### 挑战:**自动化和优化软件交付 - Agentic DevOps**
我们的项目直接满足挑战标准:
✅ **CI/CD 自动化**:代理触发并管理管道运行、审批和发布
✅ **事件响应**:从告警到已验证修复的端到端自动化
✅ **可靠性工程**:SRE 代理强制执行 SLO、检查爆炸半径、验证策略
### 我们瞄准的奖项类别
1. **大奖 - Agentic DevOps**(主要)
2. **最佳多代理系统**(使用 Agent Framework 的复杂编排)
3. **最佳 Azure 集成**(与 5 多个 Azure 服务深度集成)
4. **最佳使用 Microsoft Foundry**(利用项目、存储、可观测性和治理)
## 🌟 演示场景
**事件**:支付服务中的内存泄漏导致 500 错误。
1. **告警摄取器**接收 Azure Monitor 关于高错误率的告警
2. **根因分析代理**关联 Application Insights 追踪,识别提交 `abc123` 中的内存泄漏
3. **代码修复代理**提出回滚到上一个稳定提交
4. **SRE 审核员**验证:✅ SLO 影响可接受,✅ 无安全问题,✅ 回滚风险低
5. **变更管理器**创建 GitHub PR,运行 CI 测试,请求人工审批
6. 开发者批准 → 代理触发 Azure 管道 → 服务在 8 分钟内恢复
**结果**:MTTR 从 45 分钟(手动)减少到 8 分钟(代理化)
## 📊 影响与收益
- **平均恢复时间(MTTR)减少 80%**
- **24/7 覆盖,无需值班疲劳**
- **知识民主化**:初级工程师也能从 AI 辅助诊断中受益
- **审计追踪**:每个决策都被记录,用于合规和学习
- **可扩展**:能够同时处理数百个服务的事件
## 🗺️ 路线图
- [ ] **阶段 1**:核心代理 + 基本工作流(黑客松 MVP)
- [ ] **阶段 2**:使用 ML 异常检测的高级根因分析
- [ ] **阶段 3**:从过去事件中自我学习(强化学习)
- [ ] **阶段 4**:与 Microsoft Teams 集成以发送通知
- [ ] **阶段 5**:多云支持(AWS、GCP)
## 📄 许可证
本项目根据 MIT 许可证授权 - 详细信息请参阅 [LICENSE](LICENSE) 文件。
## 👥 团队
**Rajashekar Chennoji**
🎓 学生,IGNOU 海得拉巴
💼 Azure 与 AI 爱好者
🔗 [LinkedIn](https://linkedin.com/in/) | [GitHub](https://github.com/chennojirajashekar)
## 📞 联系
如有疑问或合作机会:
- **电子邮件**:hackathonsupport@microsoft.com
- **GitHub 问题**:[创建问题](https://github.com/chennojirajashekar/agentic-devops-copilot/issues)
**用心构建,为 Microsoft AI Dev Days Hackathon 2026 而建**
标签:Agentic DevOps, Agentic DevOps挑战, AI代理, Application Insights, Azure Monitor, CI/CD自动化, DevOps自动化, Microsoft Agent Framework, PyRIT, SLO合规, 事件响应自动化, 人机协同, 代码修复建议, 分布式追踪, 变更审查, 回滚策略, 多智能体系统, 安全部署, 开源, 微软AI开发日, 指标监控, 根因分析, 生产环境自动化, 逆向工具, 配置变更