fwasi123/enterprise-cloudops-ai-agent
GitHub: fwasi123/enterprise-cloudops-ai-agent
企业级 AI 驱动的 CloudOps 故障排查与修复助手,通过 Azure OpenAI 和向量知识库自动分析 K8s/Terraform 故障并执行审批后修复。
Stars: 0 | Forks: 0
# 企业级 CloudOps AI Agent
面向生产环境的 AI 驱动的 CloudOps 故障排查与修复助手,基于 Azure OpenAI、Azure AI 搜索、Kubernetes 运维工作流、Sysdig 可观测性以及企业级自动化实践构建。
# 概述
本项目展示了一个企业级的 Agentic AI 平台,能够实现:
- AI 驱动的事件分析
- Kubernetes 故障排查
- Terraform 修复工作流
- 根因分析
- 生产运维指导
- 自动化修复审批工作流
- 企业级可观测性集成
# 企业级架构
核心组件包括:
- Azure OpenAI
- Azure AI 搜索
- 向量存储检索
- Kubernetes 修复工作流
- Terraform 运维自动化
- Sysdig 可观测性集成
- 生产审批流水线
架构文档:
```
docs/architecture.md
```
# 生产功能
## AI 事件分析
AI 助手执行以下操作:
- Pod 健康分析
- 资源压力分析
- 部署验证
- 根因识别
- 回滚建议生成
## Kubernetes 运维工作流
支持的生产场景:
- CrashLoopBackOff
- OOMKill 修复
- 部署失败
- 存活/就绪探测失败
- 节点资源耗尽
运维手册位置:
```
docs/runbooks/kubernetes-crashloopbackoff.md
```
## Terraform 基础设施修复
平台支持:
- 漂移检测
- 基础设施验证
- 回滚流程
- 安全策略验证
- RBAC 分析
运维手册位置:
```
docs/runbooks/terraform-remediation.md
```
# 企业级安全控制
- RBAC 强制实施
- 人工审批工作流
- 审计日志记录
- 最小权限原则
- 默认只读诊断
# AI 运维工作流
1. 事件检测
2. AI 检索运维知识
3. AI 执行根因分析
4. AI 生成修复方案
5. 请求人工审批
6. 执行自动化修复
7. 必要时支持回滚
# 企业级工具集
集成技术:
- Azure OpenAI
- Azure AI 搜索
- Kubernetes
- Terraform
- Sysdig
- Prometheus
- Azure Monitor
- GitHub Actions
- Azure DevOps
# 未来增强
- ServiceNow 集成
- Slack / Teams 通知
- 自主修复流水线
- 多集群 AI 运维
- 实时事件关联
- Agentic SRE 编排
# 生产设计目标
- 降低平均修复时间(MTTR)
- 提升运维一致性
- 自动化重复性修复任务
- 增强可观测性驱动运维
- 启用 AI 辅助 CloudOps 工作流
# 状态
企业级概念验证环境
已实现生产风格的架构和运维工作流。
标签:AIOps, Azure AI Search, Azure OpenAI, CloudOps, ECS, RBAC, Terraform, 云运维, 人工智能运维, 企业级, 修复工作流, 向量存储, 向量搜索, 回滚, 大语言模型蜜罐, 子域名突变, 安全控制, 容器编排, 批准工作流, 故障排除, 智能运维, 根因分析, 生产级, 网络调试, 自动化, 自定义请求头, 观测性