msambou/sundiata-ops

GitHub: msambou/sundiata-ops

一个基于Kubernetes的云原生多代理事件响应平台,利用自托管AI代理自主检测和修复基础设施事件。

Stars: 0 | Forks: 0

# Sundiata Ops 一个基于 Kubernetes 构建的云原生多代理事件响应平台。 Sundiata Ops 利用分布式 AI 代理、事件驱动微服务和 GitOps 工作流,以自主检测、调查和修复基础设施事件。 该平台旨在利用自主 AI 代理、异步消息传递和生产级云原生工具,模拟现代 SRE 和平台工程工作流。 与许多依赖外部托管 API 的 AI 平台不同,Sundiata Ops 使用 Ollama 直接在 Kubernetes 集群内运行其 LLM 推理栈,从而在平台内实现完全自托管的 AI 工作流。 # 项目目标 Sundiata Ops 的构建旨在展示: * Kubernetes 原生架构 * 分布式系统设计 * 事件驱动微服务 * 自托管 LLM 基础设施 * AI 代理编排 * GitOps 部署工作流 * 云原生可观测性 * 基础设施即代码 * CI/CD 自动化 * 生产级平台工程实践 # 高级架构 ``` +----------------------+ | API Gateway | | Kong | +----------+-----------+ | v +------------+-------------+ | Incident API | | FastAPI | +------------+-------------+ | v +--------------------------+ | NATS JetStream | | Event Streaming Bus | +--------------------------+ | | | | | | | | -------------- | | ---------------- | | | | v v v v +-------------+ +-------------+ +-------------+ +-------------+ | Triage | | RCA Agent | | Remediation | | Notification| | Agent | | | | Agent | | Agent | +------+------+ +------+------+ +------+------+ +------+------+ | | | | ------------------------------------------------------------ | v +----------------------+ | Postmortem Agent | +----------------------+ | v +----------------------+ | Ollama Inference | | Service | +----------------------+ ``` # 核心架构原则 ## 事件驱动通信 服务通过 NATS JetStream 使用发布/订阅模式进行异步通信。 事件生命周期示例: ``` incident.created ↓ incident.triaged ↓ incident.rca.completed ↓ incident.remediation.generated ↓ incident.resolved ``` 这种方法实现了: * 松耦合 * 水平可扩展性 * 弹性 * 故障隔离 * 独立部署 # AI 代理系统 每个代理都实现为部署在 Kubernetes 上的独立微服务。 在内部,代理使用 LangGraph 工作流来编排推理和决策流水线。 所有代理都从部署在集群内的集中式 Ollama 推理服务消费推理能力。 ## 分诊代理 负责: * 严重性分类 * 归属路由 * 事件优先级排序 * 重复检测 ## 根本原因分析代理 负责: * 日志分析 * 指标关联 * 跟踪检查 * 根本原因识别 ## 修复代理 负责: * 修复建议 * Kubernetes 恢复操作 * 扩缩容建议 * 回滚策略 ## 通知代理 负责: * Slack 通知 * Teams 警报 * 事件通信 * 升级工作流 ## 事后分析代理 负责: * 事件时间线 * 事后分析报告生成 * 事件摘要 * 历史报告 # 自托管 LLM 基础设施 Sundiata Ops 使用 Ollama 直接在 Kubernetes 集群内运行 LLM 推理。 这实现了: * 自托管 AI 工作负载 * 减少外部 API 依赖 * 本地推理实验 * 基础设施级 AI 可观测性 * 可移植的 AI 部署 推理层作为一个内部 Kubernetes 服务部署,并在所有代理之间共享。 可选模型包括: * Llama 3 * DeepSeek * Mistral * Phi * Gemma 未来增强可能包括: * GPU 节点池 * 推理自动扩缩容 * 模型路由 * 多模型编排 * vLLM 集成 # 云原生技术栈 | 关注点 | 技术 | | ----------------------- | ------------------------ | | 云提供商 | Azure | | Kubernetes | AKS | | 基础设施即代码 | Terraform | | API 网关 | Kong | | 事件流 | NATS JetStream | | GitOps | FluxCD | | CI/CD | Tekton | | AI 工作流编排 | LangGraph | | LLM 推理 | Ollama | | 可观测性 | Prometheus + Grafana | | 分布式跟踪 | OpenTelemetry | | 日志 | Loki | | 容器注册表 | Azure Container Registry | | 密钥管理 | Azure Key Vault | | 持久化 | PostgreSQL / Redis | # 基础设施配置 基础设施使用 Terraform 声明式地进行配置。 Terraform 管理: * AKS 集群 * 网络 * Azure Container Registry * Azure Key Vault * 监控资源 * 托管身份 * 存储资源 * Ollama 基础设施资源 基础设施变更受版本控制且可复现。 # GitOps 工作流 Sundiata Ops 遵循由 FluxCD 驱动的 GitOps 部署模型。 部署流水线: ``` Git Push ↓ Tekton Pipeline ↓ Build & Test ↓ Push Image to ACR ↓ Update GitOps Repository ↓ FluxCD Reconciliation ↓ Deployment to AKS ``` 所有部署均通过 Git 进行声明式管理。 # 可观测性 该平台经过全面仪表化,具备生产级可观测性。 ## 指标 Prometheus 收集: * 事件指标 * 代理处理延迟 * 推理延迟 * 队列指标 * 基础设施指标 ## 日志 Loki 聚合所有服务的集中式日志。 ## 分布式跟踪 OpenTelemetry 跟踪整个事件生命周期的请求。 跟踪路径示例: ``` Incident API ↓ NATS ↓ Triage Agent ↓ Ollama ↓ RCA Agent ↓ Remediation Agent ``` # 仓库结构 ``` sundiata-ops/ │ ├── infrastructure/ # Terraform infrastructure ├── gitops/ # FluxCD manifests ├── helm/ # Helm charts ├── docs/ # Architecture documentation ├── scripts/ # Utility scripts │ ├── platform/ │ ├── ollama/ │ ├── nats/ │ ├── kong/ │ ├── monitoring/ │ └── observability/ │ ├── services/ │ ├── incident-api/ │ ├── triage-agent/ │ ├── rca-agent/ │ ├── remediation-agent/ │ ├── notification-agent/ │ └── postmortem-agent/ │ └── README.md ``` 每个微服务包含: * 隔离的源代码 * Dockerfile * Kubernetes 清单 * 服务特定的 README * 测试 * 可观测性仪表化 # 工程重点领域 Sundiata Ops 强调: * 分布式微服务 * 异步事件处理 * Kubernetes 平台工程 * 自托管 AI 基础设施 * AI 辅助运维 * 云原生弹性模式 * 可扩展的可观测性 * 基础设施自动化 * 生产部署工作流 # 未来增强 计划的增强包括: * 自动化修复执行 * GPU 支持的推理池 * 推理自动扩缩容 * 混沌工程实验 * 服务网格集成 * 金丝雀部署 * KEDA 自动扩缩容 * 多集群部署 * 异常检测流水线 * 策略驱动的修复工作流 # 愿景 Sundiata Ops 旨在探索自主 AI 系统如何在利用 Kubernetes 上完全自托管的 LLM 基础设施的同时,增强云原生环境中的现代平台工程和事件响应工作流。
标签:AI代理, AI风险缓解, AV绕过, FastAPI, GitOps, Kong, LLM推理, LLM评估, NATS JetStream, NIDS, Ollama, SRE, 事件驱动架构, 偏差过滤, 分布式系统, 响应大小分析, 基础设施监控, 子域名突变, 容器化, 平台工程, 异步消息, 搜索引擎查询, 测试用例, 用户代理, 自动化运维, 自定义请求头, 自托管LLM, 观测性, 运维自动化