fwasi123/enterprise-cloudops-ai-agent

GitHub: fwasi123/enterprise-cloudops-ai-agent

企业级 AI 驱动的 CloudOps 故障排查与修复助手,通过 Azure OpenAI 和向量知识库自动分析 K8s/Terraform 故障并执行审批后修复。

Stars: 0 | Forks: 0

# 企业级 CloudOps AI Agent 面向生产环境的 AI 驱动的 CloudOps 故障排查与修复助手,基于 Azure OpenAI、Azure AI 搜索、Kubernetes 运维工作流、Sysdig 可观测性以及企业级自动化实践构建。 # 概述 本项目展示了一个企业级的 Agentic AI 平台,能够实现: - AI 驱动的事件分析 - Kubernetes 故障排查 - Terraform 修复工作流 - 根因分析 - 生产运维指导 - 自动化修复审批工作流 - 企业级可观测性集成 # 企业级架构 核心组件包括: - Azure OpenAI - Azure AI 搜索 - 向量存储检索 - Kubernetes 修复工作流 - Terraform 运维自动化 - Sysdig 可观测性集成 - 生产审批流水线 架构文档: ``` docs/architecture.md ``` # 生产功能 ## AI 事件分析 AI 助手执行以下操作: - Pod 健康分析 - 资源压力分析 - 部署验证 - 根因识别 - 回滚建议生成 ## Kubernetes 运维工作流 支持的生产场景: - CrashLoopBackOff - OOMKill 修复 - 部署失败 - 存活/就绪探测失败 - 节点资源耗尽 运维手册位置: ``` docs/runbooks/kubernetes-crashloopbackoff.md ``` ## Terraform 基础设施修复 平台支持: - 漂移检测 - 基础设施验证 - 回滚流程 - 安全策略验证 - RBAC 分析 运维手册位置: ``` docs/runbooks/terraform-remediation.md ``` # 企业级安全控制 - RBAC 强制实施 - 人工审批工作流 - 审计日志记录 - 最小权限原则 - 默认只读诊断 # AI 运维工作流 1. 事件检测 2. AI 检索运维知识 3. AI 执行根因分析 4. AI 生成修复方案 5. 请求人工审批 6. 执行自动化修复 7. 必要时支持回滚 # 企业级工具集 集成技术: - Azure OpenAI - Azure AI 搜索 - Kubernetes - Terraform - Sysdig - Prometheus - Azure Monitor - GitHub Actions - Azure DevOps # 未来增强 - ServiceNow 集成 - Slack / Teams 通知 - 自主修复流水线 - 多集群 AI 运维 - 实时事件关联 - Agentic SRE 编排 # 生产设计目标 - 降低平均修复时间(MTTR) - 提升运维一致性 - 自动化重复性修复任务 - 增强可观测性驱动运维 - 启用 AI 辅助 CloudOps 工作流 # 状态 企业级概念验证环境 已实现生产风格的架构和运维工作流。
标签:AIOps, Azure AI Search, Azure OpenAI, CloudOps, ECS, RBAC, Terraform, 云运维, 人工智能运维, 企业级, 修复工作流, 向量存储, 向量搜索, 回滚, 大语言模型蜜罐, 子域名突变, 安全控制, 容器编排, 批准工作流, 故障排除, 智能运维, 根因分析, 生产级, 网络调试, 自动化, 自定义请求头, 观测性