msambou/sundiata-ops
GitHub: msambou/sundiata-ops
一个基于Kubernetes的云原生多代理事件响应平台,利用自托管AI代理自主检测和修复基础设施事件。
Stars: 0 | Forks: 0
# Sundiata Ops
一个基于 Kubernetes 构建的云原生多代理事件响应平台。
Sundiata Ops 利用分布式 AI 代理、事件驱动微服务和 GitOps 工作流,以自主检测、调查和修复基础设施事件。
该平台旨在利用自主 AI 代理、异步消息传递和生产级云原生工具,模拟现代 SRE 和平台工程工作流。
与许多依赖外部托管 API 的 AI 平台不同,Sundiata Ops 使用 Ollama 直接在 Kubernetes 集群内运行其 LLM 推理栈,从而在平台内实现完全自托管的 AI 工作流。
# 项目目标
Sundiata Ops 的构建旨在展示:
* Kubernetes 原生架构
* 分布式系统设计
* 事件驱动微服务
* 自托管 LLM 基础设施
* AI 代理编排
* GitOps 部署工作流
* 云原生可观测性
* 基础设施即代码
* CI/CD 自动化
* 生产级平台工程实践
# 高级架构
```
+----------------------+
| API Gateway |
| Kong |
+----------+-----------+
|
v
+------------+-------------+
| Incident API |
| FastAPI |
+------------+-------------+
|
v
+--------------------------+
| NATS JetStream |
| Event Streaming Bus |
+--------------------------+
| | | |
| | | |
-------------- | | ----------------
| | | |
v v v v
+-------------+ +-------------+ +-------------+ +-------------+
| Triage | | RCA Agent | | Remediation | | Notification|
| Agent | | | | Agent | | Agent |
+------+------+ +------+------+ +------+------+ +------+------+
| | | |
------------------------------------------------------------
|
v
+----------------------+
| Postmortem Agent |
+----------------------+
|
v
+----------------------+
| Ollama Inference |
| Service |
+----------------------+
```
# 核心架构原则
## 事件驱动通信
服务通过 NATS JetStream 使用发布/订阅模式进行异步通信。
事件生命周期示例:
```
incident.created
↓
incident.triaged
↓
incident.rca.completed
↓
incident.remediation.generated
↓
incident.resolved
```
这种方法实现了:
* 松耦合
* 水平可扩展性
* 弹性
* 故障隔离
* 独立部署
# AI 代理系统
每个代理都实现为部署在 Kubernetes 上的独立微服务。
在内部,代理使用 LangGraph 工作流来编排推理和决策流水线。
所有代理都从部署在集群内的集中式 Ollama 推理服务消费推理能力。
## 分诊代理
负责:
* 严重性分类
* 归属路由
* 事件优先级排序
* 重复检测
## 根本原因分析代理
负责:
* 日志分析
* 指标关联
* 跟踪检查
* 根本原因识别
## 修复代理
负责:
* 修复建议
* Kubernetes 恢复操作
* 扩缩容建议
* 回滚策略
## 通知代理
负责:
* Slack 通知
* Teams 警报
* 事件通信
* 升级工作流
## 事后分析代理
负责:
* 事件时间线
* 事后分析报告生成
* 事件摘要
* 历史报告
# 自托管 LLM 基础设施
Sundiata Ops 使用 Ollama 直接在 Kubernetes 集群内运行 LLM 推理。
这实现了:
* 自托管 AI 工作负载
* 减少外部 API 依赖
* 本地推理实验
* 基础设施级 AI 可观测性
* 可移植的 AI 部署
推理层作为一个内部 Kubernetes 服务部署,并在所有代理之间共享。
可选模型包括:
* Llama 3
* DeepSeek
* Mistral
* Phi
* Gemma
未来增强可能包括:
* GPU 节点池
* 推理自动扩缩容
* 模型路由
* 多模型编排
* vLLM 集成
# 云原生技术栈
| 关注点 | 技术 |
| ----------------------- | ------------------------ |
| 云提供商 | Azure |
| Kubernetes | AKS |
| 基础设施即代码 | Terraform |
| API 网关 | Kong |
| 事件流 | NATS JetStream |
| GitOps | FluxCD |
| CI/CD | Tekton |
| AI 工作流编排 | LangGraph |
| LLM 推理 | Ollama |
| 可观测性 | Prometheus + Grafana |
| 分布式跟踪 | OpenTelemetry |
| 日志 | Loki |
| 容器注册表 | Azure Container Registry |
| 密钥管理 | Azure Key Vault |
| 持久化 | PostgreSQL / Redis |
# 基础设施配置
基础设施使用 Terraform 声明式地进行配置。
Terraform 管理:
* AKS 集群
* 网络
* Azure Container Registry
* Azure Key Vault
* 监控资源
* 托管身份
* 存储资源
* Ollama 基础设施资源
基础设施变更受版本控制且可复现。
# GitOps 工作流
Sundiata Ops 遵循由 FluxCD 驱动的 GitOps 部署模型。
部署流水线:
```
Git Push
↓
Tekton Pipeline
↓
Build & Test
↓
Push Image to ACR
↓
Update GitOps Repository
↓
FluxCD Reconciliation
↓
Deployment to AKS
```
所有部署均通过 Git 进行声明式管理。
# 可观测性
该平台经过全面仪表化,具备生产级可观测性。
## 指标
Prometheus 收集:
* 事件指标
* 代理处理延迟
* 推理延迟
* 队列指标
* 基础设施指标
## 日志
Loki 聚合所有服务的集中式日志。
## 分布式跟踪
OpenTelemetry 跟踪整个事件生命周期的请求。
跟踪路径示例:
```
Incident API
↓
NATS
↓
Triage Agent
↓
Ollama
↓
RCA Agent
↓
Remediation Agent
```
# 仓库结构
```
sundiata-ops/
│
├── infrastructure/ # Terraform infrastructure
├── gitops/ # FluxCD manifests
├── helm/ # Helm charts
├── docs/ # Architecture documentation
├── scripts/ # Utility scripts
│
├── platform/
│ ├── ollama/
│ ├── nats/
│ ├── kong/
│ ├── monitoring/
│ └── observability/
│
├── services/
│ ├── incident-api/
│ ├── triage-agent/
│ ├── rca-agent/
│ ├── remediation-agent/
│ ├── notification-agent/
│ └── postmortem-agent/
│
└── README.md
```
每个微服务包含:
* 隔离的源代码
* Dockerfile
* Kubernetes 清单
* 服务特定的 README
* 测试
* 可观测性仪表化
# 工程重点领域
Sundiata Ops 强调:
* 分布式微服务
* 异步事件处理
* Kubernetes 平台工程
* 自托管 AI 基础设施
* AI 辅助运维
* 云原生弹性模式
* 可扩展的可观测性
* 基础设施自动化
* 生产部署工作流
# 未来增强
计划的增强包括:
* 自动化修复执行
* GPU 支持的推理池
* 推理自动扩缩容
* 混沌工程实验
* 服务网格集成
* 金丝雀部署
* KEDA 自动扩缩容
* 多集群部署
* 异常检测流水线
* 策略驱动的修复工作流
# 愿景
Sundiata Ops 旨在探索自主 AI 系统如何在利用 Kubernetes 上完全自托管的 LLM 基础设施的同时,增强云原生环境中的现代平台工程和事件响应工作流。
标签:AI代理, AI风险缓解, AV绕过, FastAPI, GitOps, Kong, LLM推理, LLM评估, NATS JetStream, NIDS, Ollama, SRE, 事件驱动架构, 偏差过滤, 分布式系统, 响应大小分析, 基础设施监控, 子域名突变, 容器化, 平台工程, 异步消息, 搜索引擎查询, 测试用例, 用户代理, 自动化运维, 自定义请求头, 自托管LLM, 观测性, 运维自动化