zelyo-ai/zelyo-operator

GitHub: zelyo-ai/zelyo-operator

一款基于 LLM 的 Kubernetes 自主 AI Operator，实现从安全扫描、异常检测、事件关联到 GitOps 原生自动修复的闭环事件响应，充当 7×24 小时的数字 SRE 与安全工程师。

Stars: 1 | Forks: 0

**Zelyo 是一个用于 Kubernetes 事件响应和 DevSecOps 修复的自主 AI operator。**

Zelyo

Zelyo Operator

您的数字 SRE 与 Kubernetes 安全工程师
_{一个自主的 AI operator，能够观察、推理并针对您的集群执行操作——7x24 小时全天候运行，就像人类工程师一样。}

📖 Quick Start · 📚 Documentation · 🐛 Report Bug · ✨ Request Feature

## 🧠 什么是 Zelyo？ **Zelyo** 是一个**用于 Kubernetes 事件响应和 DevSecOps 修复的自主 AI operator**。它不仅能发出警报——还能**观察**、**推理**并**采取行动**，在您休息时持续保护您的生产集群。 ### 核心特性 - 👁️ **持续可观测性**：监控每一次 Pod 重启、OOMKill、安全配置错误以及 RBAC 偏移。 - 🧠 **上下文事件关联**：将分散的信号合成为统一的事件（例如，重启激增 + CVE + 权限提升）。 - 🔬 **LLM 驱动的诊断**：通过只读的 K8s 警报自动化技术安全地诊断根本原因。 - 🔧 **GitOps 原生的自动修复**：生成生产可用的 YAML 补丁并开启 PR，而不会中断您的工作流。 - 📋 **自动化合规性**：即时报告针对 CIS Benchmarks、NIST 800-53、SOC 2 和 PCI-DSS 的安全态势。 ## 使用场景 - ⏱️ **降低 Kubernetes 事件的 MTTR**：从数小时的调试缩短至几分钟的自动化根因分析。 - 🤖 **自动化 SRE 运维手册**：让 Zelyo 执行您的标准操作程序，实现稳健的 DevOps 可观测性。 - 🔧 **GitOps 原生修复**：生成生产可用的 YAML 补丁并开启 PR，而不会中断您的工作流。 - 🛡️ **持续的 DevOps 可观测性与安全**：绝不让权限偏移或存在漏洞的镜像处于无人处理的状态。这就是 Zelyo。全自动化，全自主，且仅需**只读的集群访问权限**。 ## ⚡ 核心能力

### 🔒 安全扫描持续扫描 RBAC 问题、镜像 CVE、PodSecurity 违规、Secrets 暴露以及网络策略缺口。 ### 🧠 异常检测为 Pod 重启、资源使用率和错误率构建 σ-偏差基线——无需静态阈值即可检测异常。 ### 🔄 偏移检测将实时集群状态与您的 Git 仓库进行比较，识别影子资源和 ClickOps 更改。 ### 💰 成本优化检测空闲工作负载，提供资源调整建议，并评估 Spot 实例的适用性。

### 🛡️ 合规审计将扫描结果映射到 CIS Kubernetes Benchmark 控制，生成包含证据且具备审计就绪状态的报告。 ### 🔗 事件关联将时间窗口内的相关事件分组为统一事件，供 LLM 进行诊断——不再有警报疲劳。 ### 🤖 自动修复 LLM 生成结构化的 JSON 修复计划，对其进行验证，并开启带有风险评分的 GitOps PR。 ### 📢 待命通知将警报路由至 Slack、Teams、PagerDuty、Telegram、WhatsApp 和 Webhook，并具备严重性过滤和去重功能。

## 🔁 智能流水线：观察 → 推理 → 行动与仅仅堆砌结果然后置之不理的传统扫描工具不同，Zelyo 作为一个**闭环自主代理**运行： ``` graph LR accTitle: Kubernetes incident response operator reconciliation loop diagram accDescr: The agentic pipeline showing how Zelyo observes, reasons, and acts autonomously SP["SecurityPolicy
Scanner"] -->|findings| C["Correlator
Engine"] MP["MonitoringPolicy
Observer"] -->|pod metrics| AD["Anomaly
Detector"] AD -->|σ-deviations| C CS["ClusterScan
Scheduler"] -->|findings| CF["Compliance
Framework"] CF -->|CIS report| C C -->|incidents| RP["Remediation
Policy"] RP -->|finding| RE["LLM
Reasoner"] RE -->|JSON fix plan| GH["GitHub
Engine"] GH -->|Pull Request| REPO["Your GitOps
Repo"] REPO -->|merged| ARGO["ArgoCD/Flux"] ARGO -->|applied| K8S["Cluster"] ``` 1. **观察** — SecurityPolicy 扫描 Pod，MonitoringPolicy 观察重启次数，ClusterScan 评估合规性 2. **关联** — 关联器引擎将 5 分钟窗口内的相关事件分组为统一事件 3. **推理** — LLM 结合完整上下文分析事件，并生成带有风险评分的结构化 JSON 修复计划 4. **行动** — 修复引擎验证计划，GitHub 引擎开启包含修复内容的 PR 5. **报告** — 合规报告、Kubernetes 事件和 Prometheus 指标将流向您的仪表板 ## 🎯 双重运行模式 | 模式 | 时机 | 行为 | |:---:|---|---| | 🔍 **审计模式** *(默认)* | 未接入 GitOps 仓库 | 观察、诊断并发出警报——您的数字安全分析师 | | 🛡️ **保护模式** | 已接入 GitOps 仓库 | 完全自主的修复——您处于自动驾驶状态的数字 SRE | ## 🏗️ 架构 ``` graph TB accTitle: Kubernetes incident response operator architecture diagram accDescr: High-level system architecture of Zelyo Operator subgraph "Kubernetes Cluster — Read-Only Access" Events[K8s Events] Logs[Pod Logs] Nodes[Node Conditions] Net[Network Telemetry] Metrics[Resource Metrics] end subgraph "Zelyo — The Digital SRE" subgraph "Observe" Watcher[Real-Time Watcher] Scanner[Security Scanner] CostEng[Cost Optimizer] end subgraph "Reason" AnomalyDet[Anomaly Detector
σ-deviation baselines] Correlator[Incident Correlator
time-window grouping] Compliance[Compliance Engine
CIS/NIST/SOC2] DriftDet[Live Drift Detector
cluster vs Git] LLM[LLM Reasoner
structured JSON output] end subgraph "Act" Remediation[Remediation Engine
risk-scored fix plans] GitOps[GitHub App Engine
JWT auth, PR lifecycle] Notify[Notifier
dedup + rate limit] end end subgraph "Integrations" GitRepo[Your GitOps Repo] Alerts[Slack · Teams · PagerDuty
Telegram · WhatsApp] Prom[Prometheus · Grafana] ArgoFlux[ArgoCD / Flux] end Events & Logs & Nodes & Net & Metrics --> Watcher Watcher --> AnomalyDet & Scanner & CostEng Scanner --> DriftDet & Compliance AnomalyDet & Scanner & CostEng & DriftDet & Compliance --> Correlator Correlator --> LLM LLM --> Remediation Remediation -->|Protect Mode| GitOps Remediation -->|Audit Mode| Notify GitOps --> GitRepo GitRepo --> ArgoFlux Notify --> Alerts Watcher --> Prom ``` ## 安装 *直接使用这些可直接复制粘贴的安装命令。* ### 通过 Helm (OCI) 安装 ``` # 将你的 LLM API key 作为 Kubernetes secret 添加 kubectl create secret generic zelyo-llm \ --namespace zelyo-system \ --from-literal=api-key= # 安装 cert-manager（耗时约 1m） helm install cert-manager oci://quay.io/jetstack/charts/cert-manager \ --version v1.20.0 \ --namespace cert-manager \ --create-namespace \ --set crds.enabled=true # 在安装 operator 之前，等待 cert-manager 准备就绪 kubectl wait --for=condition=Ready pods --all -n cert-manager --timeout=120s # 从 OCI registry 安装 Zelyo Operator helm install zelyo-operator oci://ghcr.io/zelyo-ai/charts/zelyo-operator \ --namespace zelyo-system \ --create-namespace \ --set config.llm.provider=openrouter \ --set config.llm.model=anthropic/claude-sonnet-4-20250514 \ --set config.llm.apiKeySecret=zelyo-llm \ --set webhook.certManager.enabled=true # 验证安装 kubectl get pods -n zelyo-system ``` ## 快速入门 ### 验证镜像签名 ``` cosign verify ghcr.io/zelyo-ai/zelyo-operator: \ --certificate-identity-regexp='.*' \ --certificate-oidc-issuer='https://token.actions.githubusercontent.com' ``` ### 应用安全策略 ``` apiVersion: zelyo.ai/v1alpha1 kind: SecurityPolicy metadata: name: enforce-non-root namespace: zelyo-system spec: severity: critical match: namespaces: ["production", "staging"] rules: - type: container-security-context enforce: true autoRemediate: true ```

🛡️ 接入 GitOps 仓库（激活保护模式）

``` apiVersion: zelyo.ai/v1alpha1 kind: GitOpsRepository metadata: name: my-infra-repo namespace: zelyo-system spec: url: https://github.com/my-org/k8s-manifests branch: main paths: - "clusters/production/" - "clusters/staging/" provider: github authSecret: github-app-credentials syncStrategy: poll ```

🤖 启用自动修复

``` apiVersion: zelyo.ai/v1alpha1 kind: RemediationPolicy metadata: name: auto-fix-critical namespace: zelyo-system spec: gitOpsRepository: my-infra-repo severityFilter: high # Only fix high and critical findings dryRun: false # Set to true to preview fixes without opening PRs maxConcurrentPRs: 3 # Limit blast radius autoMerge: false # Require human approval prTemplate: titlePrefix: "[Zelyo]" labels: ["zelyo", "auto-remediation"] branchPrefix: "zelyo/fix-" ```

## 📦 CRD 参考 Zelyo Operator 使用 **9 个自定义资源定义 (CRD)** 来声明式地配置数字 SRE 的各个方面： | CRD | 用途 | |---|---| | `ZelyoConfig` | 全局配置——LLM 提供商、API 密钥、特性标志 | | `SecurityPolicy` | 定义要扫描的安全规则以及目标命名空间 | | `MonitoringPolicy` | 配置实时监控——事件过滤器、异常检测、警报 | | `RemediationPolicy` | 控制自动修复——严重性过滤器、dry-run 模式、最大 PR 数、GitOps 目标 | | `GitOpsRepository` | 接入 Git 仓库以进行偏移检测和 PR 提交 | | `ClusterScan` | 安排集群范围的安全和合规性扫描 | | `ScanReport` | 存储单独的扫描结果（由 ClusterScan 自动创建） | | `CostPolicy` | 配置成本优化规则和阈值 | | `NotificationChannel` | 配置警报发送——Slack、Teams、PagerDuty、Webhook | ## 🧩 内部包架构

点击展开内部包结构图

| 包 | 在数字 SRE 中的角色 | |---|---| | `internal/scanner` | 8 个安全扫描器（RBAC、镜像、PodSecurity、Secrets、网络、供应链） | | `internal/anomaly` | 统计基线引擎——带有滑动窗口的 σ-偏差异常检测 | | `internal/correlator` | 基于时间窗口的事件关联——将警报分组为统一事件 | | `internal/compliance` | 将结果映射到 CIS/NIST/SOC2 控制，生成审计就绪的报告 | | `internal/drift` | 实时偏移检测器——通过递归对象差异比较集群状态与 Git | | `internal/remediation` | LLM 驱动的修复生成，具有结构化 JSON 输出和风险评分 | | `internal/llm` | 多提供商 LLM 客户端，具有熔断器、重试和 token 预算控制 | | `internal/github` | GitHub App 引擎——JWT 身份验证、安装 token、PR 生命周期（仅使用标准库） | | `internal/gitops` | GitOps 引擎接口 + ArgoCD/Flux/Kustomize/Helm 源发现 | | `internal/notifier` | 多通道通知，具有严重性过滤、去重和限流功能 | | `internal/monitor` | 带有事件分发的实时 Kubernetes 资源监控器 | | `internal/controller` | 7 个 Kubernetes controller，编排观察 → 推理 → 行动流水线 |

## 🛠️ 开发 ### 前置条件 - Go 1.25+ - Docker - kubectl - [kind](https://kind.sigs.k8s.io/) 或 [minikube](https://minikube.sigs.k8s.io/) - [Kubebuilder](https://kubebuilder.io/) - Helm 3.x ### 设置 ``` # 克隆 repository git clone https://github.com/zelyo-ai/zelyo-operator.git cd zelyo-operator # 安装依赖 make install # 生成 manifests 和 CRDs make manifests generate # 在本地针对 kind cluster 运行 make run # 运行测试（14 个 packages，60+ 个 test cases） make test # Lint make lint ``` ### 构建 ``` # 构建 binary make build # 构建 Docker image make docker-build IMG=ghcr.io/zelyo-ai/zelyo-operator:dev # 构建并推送 make docker-push IMG=ghcr.io/zelyo-ai/zelyo-operator:dev ``` ## 📚 文档 | 文档 | 描述 | |---|---| | [入门指南](docs/quickstart.md) | 分步设置：克隆、集群、首个策略、首次扫描 | | [快速入门配方](docs/quickstart.md) | 针对常见用例的可直接复制粘贴的 YAML 配方 | | [架构](docs/architecture.md) | 系统设计、控制器、扫描器引擎、数据流 | | [安全扫描器](docs/scanners.md) | 所有 8 个扫描器：检查内容、严重级别、示例策略 | | [CRD 参考](docs/crd-reference.md) | 所有 9 个 CRD 的完整字段参考（spec + status） | | [监控与指标](docs/metrics.md) | Prometheus 指标、PromQL 查询、Grafana 仪表板、告警规则 | | [LLM 配置](docs/llm-configuration.md) | 提供商设置、token 预算与成本优化 | | [GitOps 接入](docs/gitops-onboarding.md) | 如何连接您的 GitOps 仓库以实现自动修复 | | [集成](docs/integrations.md) | 通知通道设置指南（Slack、Teams、PagerDuty 等） | | [合规性](docs/compliance.md) | 支持的框架和自定义规则编写 | | [供应链安全](docs/supply-chain-security.md) | 验证镜像签名、SBOM 和来源 | ## 🔐 安全如需报告安全漏洞，请参阅 [SECURITY.md](SECURITY.md)。 ## 📄 许可证 Zelyo Operator 采用 [Apache License 2.0](LICENSE) 授权。

_{由 Zelyo AI 用 ❤️ 创建}
_{⭐ 如果 Zelyo 帮您免去了一次待命警报，请考虑给我们点个 Star！}

标签：24/7监控, Agentic AI, AIOps, AI代理, C2, CISA项目, DevSecOps, EVTX分析, Go语言, Helm, K8s运维, Kubernetes Operator, SRE, 上游代理, 云基础设施, 人工智能, 偏差过滤, 全栈安全, 动态调试, 子域名突变, 安全工程师, 平台工程, 开箱即用, 提示注入, 数字SRE, 日志审计, 智能运维, 模块化设计, 漏洞修复, 用户模式Hook绕过, 程序破解, 网络安全培训, 自动化修复, 自动化运维, 自定义请求头, 请求拦截, 集群管理