shaiknoorullah/opsbench

GitHub: shaiknoorullah/opsbench

面向 Claude Code 的多 Agent 运维工具包，提供基于 NIST 标准的 K8s/SRE 取证级事件响应工作流。

Stars: 0 | Forks: 0

opsbench

一款为使用 Claude Code 和 Codex CLI 的 DevOps、SRE、Platform、Infra、IT、Security 和 Network 团队设计的多团队 Agent 工具包。

## 目录 - [什么是 opsbench？](#what-is-opsbench) - [快速安装](#quick-install) - [核心内容](#whats-in-the-box) - [架构](#architecture) - [团队](#teams) - [快速开始](#quickstart) - [文档](#documentation) - [贡献](#contributing) - [路线图](#roadmap) - [标准与灵感](#standards--inspirations) - [许可证](#license) ## 什么是 opsbench？ `opsbench` 是一个 **Agent 工具包** — 一套精心策划的技能、子 Agent、JSON schema、Cedar 策略、Hook 和 MCP 配方 — 专为在生产环境基础设施上使用 AI 编码 Agent（Claude Code、Codex CLI）的运维团队设计。它以**团队 Monorepo** 的形式组织。每个团队都是一个独立的包，针对特定的运维领域（事件响应、平台工程、安全、网络等）。首个发布的团队 — `team-incident-response` — 将 **11 个链式技能 + 33 个专门的子 Agent** 打包成基于 NIST SP 800-86 和 NIST SP 800-61r2 的取证级事件响应工作流。大多数针对基础设施的 AI 助手都会陷入同样的陷阱：猜测“可能”的根本原因、使用单 Agent 巨型 prompt、无隔离、无监管链、无迭代纪律、无工具门控。opsbench 则截然相反 — 宣判盲查的调查机制、SHA-256 证据封存、基于每个 Agent 的最小权限工具作用域、经 schema 验证的输出，以及由 Cedar 门控的变更操作。 ## 快速安装 ``` curl -fsSL https://raw.githubusercontent.com/shaiknoorullah/opsbench/main/scripts/install.sh | bash ``` 预览且不写入任何内容： ``` curl -fsSL https://raw.githubusercontent.com/shaiknoorullah/opsbench/main/scripts/install.sh | bash -s -- --dry-run ``` 仅安装特定团队： ``` curl -fsSL https://raw.githubusercontent.com/shaiknoorullah/opsbench/main/scripts/install.sh \ | bash -s -- --teams team-incident-response ``` 安装完成后，通过修改 `~/.claude/settings.json` 注册 Hook 来完成配置（安装程序会打印出确切的代码片段）。 ## 核心内容初始发布版本仅包含一个团队 — **`team-incident-response`** — 涵盖 K8s / SRE / DevOps 取证级事件响应： | 层级 | 数量 | 示例 | | ----- | ----- | -------- | | **技能（链式）** | 11 | `storage-incident-response`, `incident-quarantine`, `evidence-collection-orchestrator`, `forensic-synthesis`, `parallel-hypothesis-debug`, `post-incident-artifact-generator` | | **子 Agent** | 33 | `incident-commander`, `evidence-cataloger`, `hypothesis-storage`, `forensic-synthesizer`, `recovery-planner`, `rca-author` | | **JSON Schema** | 9 | `incident-report`, `rca`, `collection-plan`, `round-verdict`, `custody-entry`, `recovery-plan` | | **Cedar 策略** | 2 | `tools.cedar`（基于每个 Agent 的工具白名单）, `governors.cedar`（循环上限） | | **Hook 脚本** | 4 | `PreToolUse`, `PostToolUse`, `SessionStart`, `SubagentStop` | | **MCP 配方** | 50 | HashiCorp Vault, GitHub, AWS (awslabs), GCP, Azure (raw + skills + microsoft monorepo), Argo CD (Argo Labs + Akuity), Argo Workflows, Kubernetes (containers + kubectl bridge), Helm, Talos, Inspektor Gadget, Kubeshark, Crossplane (Upbound + community), Terraform, Ansible, Docker, Grafana, Prometheus, Loki, VictoriaMetrics, SigNoz, OpenTelemetry, Alertmanager, Trivy, Kubescape, CrowdStrike Falcon, Kyverno, Flux, k8sgpt, TheHive (EXPERIMENTAL), OpenCTI, Velociraptor, eBPF (Cilium Hubble), ClickHouse, Postgres, Slack, PagerDuty, Linear, CLI-Anything framework, Cedar-for-agents reference, Longhorn (custom), Contabo (custom), WireGuard (custom). 完整清单见 [`docs/integrations.md`](docs/integrations.md). | 详细拆解：[`packages/team-incident-response/README.md`](packages/team-incident-response/README.md). ## 架构 ``` flowchart TB user([User / Operator]) --> cc{{Claude Code / Codex CLI}} cc --> ob[opsbench teams] subgraph ob_pkg [packages/team-incident-response] direction TB sk[Skills
11 chained] --> ag[Subagents
33 specialized] ag --> sch[(JSON Schemas)] ag --> ced[(Cedar Policies)] hk[Hooks
Pre/Post/Stop] -.gates.-> ag end ob --> ob_pkg ob_pkg --> mcp[(MCP Servers)] mcp --> infra[(Infrastructure:
K8s, DBs, Cloud APIs,
Observability stacks)] classDef pkg fill:#0b3d91,stroke:#fff,color:#fff classDef ext fill:#444,stroke:#fff,color:#fff class ob_pkg pkg class infra,mcp ext ``` 概念文档： - [Skill 格式](docs/concepts/skill-format.md) - [Agent 格式](docs/concepts/agent-format.md) - [团队编排](docs/concepts/team-orchestration.md) - [Schema 与验证](docs/concepts/schemas-and-validation.md) - [Cedar 策略](docs/concepts/cedar-policies.md) - [Hook](docs/concepts/hooks.md) - [语气与准则](docs/concepts/tone-and-constitution.md) - [MCP 集成](docs/concepts/mcp-integration.md) ## 团队 | 团队 | 状态 | 领域 | 技能 | 子 Agent | | ---- | ------ | ---------- | ------ | --------- | | [`team-incident-response`](packages/team-incident-response/) | **稳定** | K8s / SRE 取证级事件响应 | 11 | 33 | | `team-platform-engineering` | 计划中 ([路线图](ROADMAP.md)) | 集群生命周期, IaC, GitOps | — | — | | `team-security-response` | 计划中 ([路线图](ROADMAP.md)) | 检测, 分流, IR | — | — | | `team-network-operations` | 计划中 ([路线图](ROADMAP.md)) | BGP, mesh VPN, 边缘 | — | — | | `team-it-helpdesk` | 计划中 ([路线图](ROADMAP.md)) | 身份, 端点, M365 | — | — | 想要提出新团队？请提交一个[新团队提案 issue](.github/ISSUE_TEMPLATE/new-team-proposal.yml) 并查看 [`docs/contributing/adding-a-team.md`](docs/contributing/adding-a-team.md)。 ## 快速开始安装工具包后，从 Claude Code 触发事件响应链： ``` > /storage-incident-response ``` Claude Code 将会： 1. 启动 `incident-commander` 作为外部 DAG 编排器。 2. 运行 `quarantine-coordinator`（将客户端扩缩容至 0，应用默认拒绝的 NetPol）。 3. 跨 7 个层级并行发现并收集证据。 4. 使用 SHA-256 清单和监管日志封存证据。 5. 运行**宣判盲查**的假设调查（每个假设对应一个子 Agent）。 6. 综合取证叙述；如果未确认（CONFIRMED）则最多循环 5 轮。 7. 编写事后处理套件（NIST 800-61 事件报告 + 5-Whys RCA + CAPA 缓解措施 + NIST 800-86 调查报告）。如果没有在每轮边界获得明确的人工批准，并在每次工具调用时获得 Cedar 策略授权，就不会发生任何变更操作。 ## 文档 - **入门指南：** [`docs/getting-started/`](docs/getting-started/) - **概念：** [`docs/concepts/`](docs/concepts/) - **参考架构：** [`docs/reference-architectures/hybrid-k8s-mesh.md`](docs/reference-architectures/hybrid-k8s-mesh.md) - **贡献：** [`docs/contributing/`](docs/contributing/) 每次推送到 `main` 分支时，都会通过 [`.github/workflows/docs-deploy.yml`](.github/workflows/docs-deploy.yml) 自动构建并部署一个文档站点 (VitePress)。 ## 路线图完整列表请查看 [`ROADMAP.md`](ROADMAP.md)。重点： - **Q3：** `team-platform-engineering` (Terraform / Pulumi / Crossplane / ArgoCD agents) - **Q4：** `team-security-response` (Falco / OpenCTI / TheHive / Velociraptor agents) - **未来：** `team-network-operations`, `team-it-helpdesk`, `team-data-platform` ## 标准与灵感事件响应团队基于以下标准： - **NIST SP 800-86** — 事件响应取证技术（SHA-256 要求、监管链） - **NIST SP 800-61r2** — 计算机安全事件处理指南（报告结构） - **ISO/IEC 27037** — 数字证据处理 - **NTBT 多方流程** — 多方迭代调查（第 N+1 轮模型） - **MITRE ATT&CK** — 基于指标的追踪流程 - **SANS DFIR** — Tier 1 / Tier 2 / Tier 3 证据追踪 - **Anthropic Constitutional AI** — tone-reviewer 基于原则的自我修订 - **Google SRE Workbook** — 无指责的事后总结文化 - **Atlassian 事件管理手册** — 角色定义 ## 许可证 [MIT](LICENSE) — 随意使用，分支并发布它。 ## 作者 [Shaik Noorullah](https://github.com/shaiknoorullah) — 在运行生产级 Kubernetes 并设计混合云基础设施时构建。 _{opsbench 之前以 `k8s-incident-response-skills` 的名称发布。此仓库上的 v1.0 和 v2.0 标签保留了该历史记录。v3.0.0 是重命名及多团队重构版本。} ### 贡献者可视化（通过 contrib.rocks 自动更新） [![contrib.rocks](https://contrib.rocks/image?repo=shaiknoorullah/opsbench)](https://github.com/shaiknoorullah/opsbench/graphs/contributors) 如需添加自己：在您贡献过的任何 PR 上评论 `@all-contributors please add @yourname for code, doc, design`。

标签：Claude Code, SRE, 偏差过滤, 多智能体, 子域名突变, 库, 应急响应, 应用安全, 自动化攻击