zelyo-ai/zelyo-operator
GitHub: zelyo-ai/zelyo-operator
一款基于 LLM 的 Kubernetes 自主 AI Operator,实现从安全扫描、异常检测、事件关联到 GitOps 原生自动修复的闭环事件响应,充当 7×24 小时的数字 SRE 与安全工程师。
Stars: 2 | Forks: 1
**Zelyo 是一个用于 Kubernetes 事件响应和 DevSecOps 修复的自主 AI operator。**
## 🔁 智能流水线:观察 → 推理 → 行动
与仅仅堆砌结果然后置之不理的传统扫描工具不同,Zelyo 作为一个**闭环自主代理**运行:
```
graph LR
accTitle: Kubernetes incident response operator reconciliation loop diagram
accDescr: The agentic pipeline showing how Zelyo observes, reasons, and acts autonomously
SP["SecurityPolicy
Scanner"] -->|findings| C["Correlator
Engine"] MP["MonitoringPolicy
Observer"] -->|pod metrics| AD["Anomaly
Detector"] AD -->|σ-deviations| C CS["ClusterScan
Scheduler"] -->|findings| CF["Compliance
Framework"] CF -->|CIS report| C C -->|incidents| RP["Remediation
Policy"] RP -->|finding| RE["LLM
Reasoner"] RE -->|JSON fix plan| GH["GitHub
Engine"] GH -->|Pull Request| REPO["Your GitOps
Repo"] REPO -->|merged| ARGO["ArgoCD/Flux"] ARGO -->|applied| K8S["Cluster"] ``` 1. **观察** — SecurityPolicy 扫描 Pod,MonitoringPolicy 观察重启次数,ClusterScan 评估合规性 2. **关联** — 关联器引擎将 5 分钟窗口内的相关事件分组为统一事件 3. **推理** — LLM 结合完整上下文分析事件,并生成带有风险评分的结构化 JSON 修复计划 4. **行动** — 修复引擎验证计划,GitHub 引擎开启包含修复内容的 PR 5. **报告** — 合规报告、Kubernetes 事件和 Prometheus 指标将流向您的仪表板 ## 🎯 双重运行模式 | 模式 | 时机 | 行为 | |:---:|---|---| | 🔍 **审计模式** *(默认)* | 未接入 GitOps 仓库 | 观察、诊断并发出警报——您的数字安全分析师 | | 🛡️ **保护模式** | 已接入 GitOps 仓库 | 完全自主的修复——您处于自动驾驶状态的数字 SRE | ## 🏗️ 架构 ``` graph TB accTitle: Kubernetes incident response operator architecture diagram accDescr: High-level system architecture of Zelyo Operator subgraph "Kubernetes Cluster — Read-Only Access" Events[K8s Events] Logs[Pod Logs] Nodes[Node Conditions] Net[Network Telemetry] Metrics[Resource Metrics] end subgraph "Zelyo — The Digital SRE" subgraph "Observe" Watcher[Real-Time Watcher] Scanner[Security Scanner] CostEng[Cost Optimizer] end subgraph "Reason" AnomalyDet[Anomaly Detector
σ-deviation baselines] Correlator[Incident Correlator
time-window grouping] Compliance[Compliance Engine
CIS/NIST/SOC2] DriftDet[Live Drift Detector
cluster vs Git] LLM[LLM Reasoner
structured JSON output] end subgraph "Act" Remediation[Remediation Engine
risk-scored fix plans] GitOps[GitHub App Engine
JWT auth, PR lifecycle] Notify[Notifier
dedup + rate limit] end end subgraph "Integrations" GitRepo[Your GitOps Repo] Alerts[Slack · Teams · PagerDuty
Telegram · WhatsApp] Prom[Prometheus · Grafana] ArgoFlux[ArgoCD / Flux] end Events & Logs & Nodes & Net & Metrics --> Watcher Watcher --> AnomalyDet & Scanner & CostEng Scanner --> DriftDet & Compliance AnomalyDet & Scanner & CostEng & DriftDet & Compliance --> Correlator Correlator --> LLM LLM --> Remediation Remediation -->|Protect Mode| GitOps Remediation -->|Audit Mode| Notify GitOps --> GitRepo GitRepo --> ArgoFlux Notify --> Alerts Watcher --> Prom ``` ## 安装 *直接使用这些可直接复制粘贴的安装命令。* ### 通过 Helm (OCI) 安装 ``` # 将你的 LLM API key 作为 Kubernetes secret 添加 kubectl create secret generic zelyo-llm \ --namespace zelyo-system \ --from-literal=api-key=
# 安装 cert-manager(耗时约 1m)
helm install cert-manager oci://quay.io/jetstack/charts/cert-manager \
--version v1.20.0 \
--namespace cert-manager \
--create-namespace \
--set crds.enabled=true
# 在安装 operator 之前,等待 cert-manager 准备就绪
kubectl wait --for=condition=Ready pods --all -n cert-manager --timeout=120s
# 从 OCI registry 安装 Zelyo Operator
helm install zelyo-operator oci://ghcr.io/zelyo-ai/charts/zelyo-operator \
--namespace zelyo-system \
--create-namespace \
--set config.llm.provider=openrouter \
--set config.llm.model=anthropic/claude-sonnet-4-20250514 \
--set config.llm.apiKeySecret=zelyo-llm \
--set webhook.certManager.enabled=true
# 验证安装
kubectl get pods -n zelyo-system
```
## 快速入门
### 验证镜像签名
```
cosign verify ghcr.io/zelyo-ai/zelyo-operator: \
--certificate-identity-regexp='.*' \
--certificate-oidc-issuer='https://token.actions.githubusercontent.com'
```
### 应用安全策略
```
apiVersion: zelyo.ai/v1alpha1
kind: SecurityPolicy
metadata:
name: enforce-non-root
namespace: zelyo-system
spec:
severity: critical
match:
namespaces: ["production", "staging"]
rules:
- type: container-security-context
enforce: true
autoRemediate: true
```
## 📦 CRD 参考
Zelyo Operator 使用 **9 个自定义资源定义 (CRD)** 来声明式地配置数字 SRE 的各个方面:
| CRD | 用途 |
|---|---|
| `ZelyoConfig` | 全局配置——LLM 提供商、API 密钥、特性标志 |
| `SecurityPolicy` | 定义要扫描的安全规则以及目标命名空间 |
| `MonitoringPolicy` | 配置实时监控——事件过滤器、异常检测、警报 |
| `RemediationPolicy` | 控制自动修复——严重性过滤器、dry-run 模式、最大 PR 数、GitOps 目标 |
| `GitOpsRepository` | 接入 Git 仓库以进行偏移检测和 PR 提交 |
| `ClusterScan` | 安排集群范围的安全和合规性扫描 |
| `ScanReport` | 存储单独的扫描结果(由 ClusterScan 自动创建) |
| `CostPolicy` | 配置成本优化规则和阈值 |
| `NotificationChannel` | 配置警报发送——Slack、Teams、PagerDuty、Webhook |
## 🧩 内部包架构
## 🛠️ 开发
### 前置条件
- Go 1.25+
- Docker
- kubectl
- [kind](https://kind.sigs.k8s.io/) 或 [minikube](https://minikube.sigs.k8s.io/)
- [Kubebuilder](https://kubebuilder.io/)
- Helm 3.x
### 设置
```
# 克隆 repository
git clone https://github.com/zelyo-ai/zelyo-operator.git
cd zelyo-operator
# 安装依赖
make install
# 生成 manifests 和 CRDs
make manifests generate
# 在本地针对 kind cluster 运行
make run
# 运行测试(14 个 packages,60+ 个 test cases)
make test
# Lint
make lint
```
### 构建
```
# 构建 binary
make build
# 构建 Docker image
make docker-build IMG=ghcr.io/zelyo-ai/zelyo-operator:dev
# 构建并推送
make docker-push IMG=ghcr.io/zelyo-ai/zelyo-operator:dev
```
## 📚 文档
| 文档 | 描述 |
|---|---|
| [入门指南](docs/quickstart.md) | 分步设置:克隆、集群、首个策略、首次扫描 |
| [快速入门配方](docs/quickstart.md) | 针对常见用例的可直接复制粘贴的 YAML 配方 |
| [架构](docs/architecture.md) | 系统设计、控制器、扫描器引擎、数据流 |
| [安全扫描器](docs/scanners.md) | 所有 8 个扫描器:检查内容、严重级别、示例策略 |
| [CRD 参考](docs/crd-reference.md) | 所有 9 个 CRD 的完整字段参考(spec + status) |
| [监控与指标](docs/metrics.md) | Prometheus 指标、PromQL 查询、Grafana 仪表板、告警规则 |
| [LLM 配置](docs/llm-configuration.md) | 提供商设置、token 预算与成本优化 |
| [GitOps 接入](docs/gitops-onboarding.md) | 如何连接您的 GitOps 仓库以实现自动修复 |
| [集成](docs/integrations.md) | 通知通道设置指南(Slack、Teams、PagerDuty 等) |
| [合规性](docs/compliance.md) | 支持的框架和自定义规则编写 |
| [供应链安全](docs/supply-chain-security.md) | 验证镜像签名、SBOM 和来源 |
## 🔐 安全
如需报告安全漏洞,请参阅 [SECURITY.md](SECURITY.md)。
## 📄 许可证
Zelyo Operator 采用 [Apache License 2.0](LICENSE) 授权。
Zelyo Operator
您的数字 SRE 与 Kubernetes 安全工程师
一个自主的 AI operator,能够观察、推理并针对您的集群执行操作——7x24 小时全天候运行,就像人类工程师一样。
📖 Quick Start ·
📚 Documentation ·
🐛 Report Bug ·
✨ Request Feature
| ### 🔒 安全扫描 持续扫描 RBAC 问题、镜像 CVE、PodSecurity 违规、Secrets 暴露以及网络策略缺口。 ### 🧠 异常检测 为 Pod 重启、资源使用率和错误率构建 σ-偏差基线——无需静态阈值即可检测异常。 ### 🔄 偏移检测 将实时集群状态与您的 Git 仓库进行比较,识别影子资源和 ClickOps 更改。 ### 💰 成本优化 检测空闲工作负载,提供资源调整建议,并评估 Spot 实例的适用性。 | ### 🛡️ 合规审计 将扫描结果映射到 CIS Kubernetes Benchmark 控制,生成包含证据且具备审计就绪状态的报告。 ### 🔗 事件关联 将时间窗口内的相关事件分组为统一事件,供 LLM 进行诊断——不再有警报疲劳。 ### 🤖 自动修复 LLM 生成结构化的 JSON 修复计划,对其进行验证,并开启带有风险评分的 GitOps PR。 ### 📢 待命通知 将警报路由至 Slack、Teams、PagerDuty、Telegram、WhatsApp 和 Webhook,并具备严重性过滤和去重功能。 |
Scanner"] -->|findings| C["Correlator
Engine"] MP["MonitoringPolicy
Observer"] -->|pod metrics| AD["Anomaly
Detector"] AD -->|σ-deviations| C CS["ClusterScan
Scheduler"] -->|findings| CF["Compliance
Framework"] CF -->|CIS report| C C -->|incidents| RP["Remediation
Policy"] RP -->|finding| RE["LLM
Reasoner"] RE -->|JSON fix plan| GH["GitHub
Engine"] GH -->|Pull Request| REPO["Your GitOps
Repo"] REPO -->|merged| ARGO["ArgoCD/Flux"] ARGO -->|applied| K8S["Cluster"] ``` 1. **观察** — SecurityPolicy 扫描 Pod,MonitoringPolicy 观察重启次数,ClusterScan 评估合规性 2. **关联** — 关联器引擎将 5 分钟窗口内的相关事件分组为统一事件 3. **推理** — LLM 结合完整上下文分析事件,并生成带有风险评分的结构化 JSON 修复计划 4. **行动** — 修复引擎验证计划,GitHub 引擎开启包含修复内容的 PR 5. **报告** — 合规报告、Kubernetes 事件和 Prometheus 指标将流向您的仪表板 ## 🎯 双重运行模式 | 模式 | 时机 | 行为 | |:---:|---|---| | 🔍 **审计模式** *(默认)* | 未接入 GitOps 仓库 | 观察、诊断并发出警报——您的数字安全分析师 | | 🛡️ **保护模式** | 已接入 GitOps 仓库 | 完全自主的修复——您处于自动驾驶状态的数字 SRE | ## 🏗️ 架构 ``` graph TB accTitle: Kubernetes incident response operator architecture diagram accDescr: High-level system architecture of Zelyo Operator subgraph "Kubernetes Cluster — Read-Only Access" Events[K8s Events] Logs[Pod Logs] Nodes[Node Conditions] Net[Network Telemetry] Metrics[Resource Metrics] end subgraph "Zelyo — The Digital SRE" subgraph "Observe" Watcher[Real-Time Watcher] Scanner[Security Scanner] CostEng[Cost Optimizer] end subgraph "Reason" AnomalyDet[Anomaly Detector
σ-deviation baselines] Correlator[Incident Correlator
time-window grouping] Compliance[Compliance Engine
CIS/NIST/SOC2] DriftDet[Live Drift Detector
cluster vs Git] LLM[LLM Reasoner
structured JSON output] end subgraph "Act" Remediation[Remediation Engine
risk-scored fix plans] GitOps[GitHub App Engine
JWT auth, PR lifecycle] Notify[Notifier
dedup + rate limit] end end subgraph "Integrations" GitRepo[Your GitOps Repo] Alerts[Slack · Teams · PagerDuty
Telegram · WhatsApp] Prom[Prometheus · Grafana] ArgoFlux[ArgoCD / Flux] end Events & Logs & Nodes & Net & Metrics --> Watcher Watcher --> AnomalyDet & Scanner & CostEng Scanner --> DriftDet & Compliance AnomalyDet & Scanner & CostEng & DriftDet & Compliance --> Correlator Correlator --> LLM LLM --> Remediation Remediation -->|Protect Mode| GitOps Remediation -->|Audit Mode| Notify GitOps --> GitRepo GitRepo --> ArgoFlux Notify --> Alerts Watcher --> Prom ``` ## 安装 *直接使用这些可直接复制粘贴的安装命令。* ### 通过 Helm (OCI) 安装 ``` # 将你的 LLM API key 作为 Kubernetes secret 添加 kubectl create secret generic zelyo-llm \ --namespace zelyo-system \ --from-literal=api-key=
🛡️ 接入 GitOps 仓库(激活保护模式)
``` apiVersion: zelyo.ai/v1alpha1 kind: GitOpsRepository metadata: name: my-infra-repo namespace: zelyo-system spec: url: https://github.com/my-org/k8s-manifests branch: main paths: - "clusters/production/" - "clusters/staging/" provider: github authSecret: github-app-credentials syncStrategy: poll ```🤖 启用自动修复
``` apiVersion: zelyo.ai/v1alpha1 kind: RemediationPolicy metadata: name: auto-fix-critical namespace: zelyo-system spec: gitOpsRepository: my-infra-repo severityFilter: high # Only fix high and critical findings dryRun: false # Set to true to preview fixes without opening PRs maxConcurrentPRs: 3 # Limit blast radius autoMerge: false # Require human approval prTemplate: titlePrefix: "[Zelyo]" labels: ["zelyo", "auto-remediation"] branchPrefix: "zelyo/fix-" ```点击展开内部包结构图
| 包 | 在数字 SRE 中的角色 | |---|---| | `internal/scanner` | 8 个安全扫描器(RBAC、镜像、PodSecurity、Secrets、网络、供应链) | | `internal/anomaly` | 统计基线引擎——带有滑动窗口的 σ-偏差异常检测 | | `internal/correlator` | 基于时间窗口的事件关联——将警报分组为统一事件 | | `internal/compliance` | 将结果映射到 CIS/NIST/SOC2 控制,生成审计就绪的报告 | | `internal/drift` | 实时偏移检测器——通过递归对象差异比较集群状态与 Git | | `internal/remediation` | LLM 驱动的修复生成,具有结构化 JSON 输出和风险评分 | | `internal/llm` | 多提供商 LLM 客户端,具有熔断器、重试和 token 预算控制 | | `internal/github` | GitHub App 引擎——JWT 身份验证、安装 token、PR 生命周期(仅使用标准库) | | `internal/gitops` | GitOps 引擎接口 + ArgoCD/Flux/Kustomize/Helm 源发现 | | `internal/notifier` | 多通道通知,具有严重性过滤、去重和限流功能 | | `internal/monitor` | 带有事件分发的实时 Kubernetes 资源监控器 | | `internal/controller` | 7 个 Kubernetes controller,编排观察 → 推理 → 行动流水线 |
由 Zelyo AI 用 ❤️ 创建
⭐ 如果 Zelyo 帮您免去了一次待命警报,请考虑给我们点个 Star!
标签:24/7监控, Agentic AI, AIOps, AI代理, C2, CISA项目, DevSecOps, EVTX分析, Go语言, Helm, K8s运维, Kubernetes Operator, SRE, 上游代理, 云基础设施, 人工智能, 偏差过滤, 全栈安全, 动态调试, 子域名突变, 安全工程师, 平台工程, 开箱即用, 提示注入, 数字SRE, 日志审计, 智能运维, 模块化设计, 漏洞修复, 用户模式Hook绕过, 程序破解, 网络安全培训, 自动化修复, 自动化运维, 自定义请求头, 请求拦截, 集群管理