air-gapped/skills

GitHub: air-gapped/skills

Claude Code 插件市场，提供 40+ 个覆盖 AI 推理、Kubernetes 运维、GPU 主机配置和可观测性等领域的可安装参考技能插件。

Stars: 3 | Forks: 0

# 技能 Claude Code 插件市场 —— 涵盖 vLLM/SGLang 推理、Kubernetes 和 Harvester、GPU 主机启动、可观测性、安全性以及 agent 工作流的 40 多个可安装参考技能。 ## 安装 ``` /plugin marketplace add air-gapped/skills /plugin install @air-gapped-marketplace ``` 插件分为单技能（例如 `jinja-expert`、`helm`、`keda`）或分组套件（例如 `vllm` —— 将所有 14 个 vLLM 参考技能捆绑在一个插件中）。有关完整列表，请参阅 `.claude-plugin/marketplace.json`。每个插件的版本控制方案为：`0.YYYYMMDD.N`，其中 `YYYYMMDD` 是各成员技能最近一次内容更改的 UTC 日期，`N` 是涉及任何成员技能目录的唯一提交计数。运行 `/plugin update` 以获取最新的版本更新。 | 技能 | 描述 | |---|---| | [`aiperf`](.claude/skills/aiperf/SKILL.md) | NVIDIA AIPerf —— 厂商中立的生成式 AI 推理基准测试（genai-perf 的继任者）。涵盖具有并发 / 请求速率 / 固定计划 trace 重放 / 以用户为中心 / 多次运行置信度的 `aiperf profile`，15 种 endpoint 类型（chat,… | | [`ansible-idrac-9-10`](.claude/skills/ansible-idrac-9-10/SKILL.md) | 针对戴尔 PowerEdge **iDRAC 9**（14G–16G）和 **iDRAC 10**（17G — R670, R770, R870, R970, XE9780, XE9785）运行和调试 `dellemc.openmanage` Ansible playbook。涵盖 iDRAC 10 / iDRAC 9 ≥ 7.30.10.50 默认的 `BasicAuthState: Unadvertised` 配置，该配置… | | [`argo-cd-apps`](.claude/skills/argo-cd-apps/SKILL.md) | 作为 GitOps 使用者（发布者）编写和维护 Argo CD `Application` 和 `ApplicationSet` manifest，目标版本为 Argo CD v3.3 / v3.4（2026 年 5 月）。涵盖源类型（Helm、Kustomize、OCI、多源、插件）、同步策略 + 选项 + 波次 +… | | [`autoresearch`](.claude/skills/autoresearch/SKILL.md) | Karpathy 模式 autoresearch —— 在可衡量的指标上进行自主的 hill-climbing、深度多 agent 研究，或先研究后优化。三种模式：Optimize（棘轮保留/丢弃）、Research（STORM 多视角）、Improve。 | | [`baml-expert`](.claude/skills/baml-expert/SKILL.md) | BAML（Boundary ML）专家，适用于在 .baml 文件中将 LLM 调用定义为类型化函数并带有生成的 Python 客户端的项目。只要代码库中包含 baml_src/、baml_client/、baml-cli 命令，或者从 baml_py / baml_client 导入，即可使用。涵盖… | | [`confluence-best-practices`](.claude/skills/confluence-best-practices/SKILL.md) | 提供关于更好地使用 Confluence 的建议，而不是如何运维它：做出结构性决定 —— 这是一个 space、一个 page，还是一个子 page？—— 诊断为什么 wiki 令人畏惧（找不到任何东西、内容腐烂、重复、被权限隐藏、无法阅读），并… | | [`gpu-host-tuning`](.claude/skills/gpu-host-tuning/SKILL.md) | 审计并调优 Linux/GPU 推理主机 —— 只读主机快照 | | [`harvester-upgrade`](.claude/skills/harvester-upgrade/SKILL.md) | 规划并执行从 EOL 版本到最新稳定版的、可控的社区版 Harvester HCI 升级 —— 无跳过的小版本阶梯（1.5→1.6→1.7→1.8；内嵌的 RKE2/KubeVirt/Longhorn/SLE-Micro 随之升级），在每一跳之前都受限于首先升级… | | [`helm`](.claude/skills/helm/SKILL.md) | 此技能应用于编写或维护 Helm chart 时 —— 创建 chart、编写 template 和 _helpers.tpl、values.yaml 模式、Chart.yaml、values.schema.json、helm-docs 以及库 chart。涵盖 Helm 4（SSA、WASM、OCI digest）、… | | [`jinja-expert`](.claude/skills/jinja-expert/SKILL.md) | 编写、阅读和调试 2026 年 Jinja 存在的三个地方的 Jinja2 模板 —— HuggingFace `chat_template.jinja`（由 `apply_chat_template` 为 vLLM / sglang 渲染）、Ansible playbook + `.j2` 文件，以及与 Jinja 相邻的 Kubernetes 工作流… | | [`jira-best-practices`](.claude/skills/jira-best-practices/SKILL.md) | 提供关于更好地使用 Jira 的建议，而不是如何运维它：做出结构性决定 —— 这是一个 epic、一个 story、一个 task，还是一个 sub-task？—— 并诊断为什么 Jira 令人畏惧，然后推荐精简的修复方案。适应组织自身拥有的层级名称、约定、… | | [`jira-cli`](.claude/skills/jira-cli/SKILL.md) | 使用 `jira` CLI (jira-cli, v1.7.0) 从终端驱动 Atlassian Jira，适用于任何 Jira —— Cloud 或本地/数据中心 (Data Center)。涵盖完整的命令面（issue / epic / sprint / board / project / release）、非交互式自动化… | | [`jira-confluence-mcp`](.claude/skills/jira-confluence-mcp/SKILL.md) | 安装、配置、保护连接 agent 与 Jira/Confluence 的 mcp-atlassian MCP 服务器 (sooperset/mcp-atlassian) 并进行故障排除 —— 包括气隙 (AIR-GAPPED) 设置（通过 digest 镜像预构建的 image；无需 PyPI/git 镜像）以及内部 CA /… | | [`k8s-components-checker`](.claude/skills/k8s-components-checker/SKILL.md) | 根据包含 19 个 stack 组件的内嵌兼容性注册表审查 RKE2 社区集群，并针对升级准备情况、漂移审查和版本偏差问题得出结论。组件：RKE2、Rancher、Harvester、Cilium、Tetragon、… | | [`keda`](.claude/skills/keda/SKILL.md) | 配置、运维并精通 KEDA (Kubernetes Event-driven Autoscaling) —— ScaledObject、ScaledJob、TriggerAuthentication CRD、70 多个 scaler、HPA 行为调优、scale-to-zero、KEDA HTTP Add-on、生产强化、多触发器语义、… | | [`keycloak-iam`](.claude/skills/keycloak-iam/SKILL.md) | 运维、配置、部署、保护并集成 Keycloak（开源 IAM） —— 现代的 Quarkus 发行版 (24.x–26.6.x)、带有 `Keycloak` 和 `KeycloakRealmImport` CRD 的 Keycloak Operator，以及 realm/client/identity-provider 配置。 | | [`lmcache-mp`](.claude/skills/lmcache-mp/SKILL.md) | LMCache 多进程 (MP) 模式 —— vLLM 通过 ZMQ 连接的、位于其自身 pod/进程中的独立 LMCache 服务器。提供进程隔离、推理路径上无 GIL 争用、每个节点上的多个 vLLM pod 共享一个缓存，以及 CPU 内存… | | [`makefile-best-practices`](.claude/skills/makefile-best-practices/SKILL.md) | 适用于 GNU Make 4.x 的 Makefile 最佳实践、模式和模板 —— 依赖图、任务运行器工作流、并行安全的 recipe、自文档化的帮助目标，以及特定语言的模式（Go、Python、Node、Docker、Helm、POSIX）。 | | [`netbox-best-practices`](.claude/skills/netbox-best-practices/SKILL.md) | 官方 netboxlabs/skills 市场未涵盖的 NetBox 4.2-4.6 部署和升级知识 - 用于在 Kubernetes 上使用 netbox-community helm chart (netbox-chart)、外部 PostgreSQL/valkey… 部署或升级 NetBox | | [`nvidia-datacenter-bringup`](.claude/skills/nvidia-datacenter-bringup/SKILL.md) | 在 Ubuntu 24.04 LTS 上启动 NVIDIA HGX/DGX 数据中心 GPU 主机 —— 气隙或联网环境，启用 Secure Boot。涵盖 B300/B200/H100/A100/L40S/L4 driver+fabricmanager+NVLSM+DOCA-OFED 安装顺序，以及来自 NVIDIA CUDA repo + DOCA 的确切软件包集… | | [`nvidia-nixl`](.claude/skills/nvidia-nixl/SKILL.md) | NVIDIA Inference Xfer Library (NIXL) operator + 开发者参考。用于分布式推理（Dynamo、vLLM、SGLang）的点对点 KV-cache 和张量传输。涵盖 agent API（完整的 Python 参考；通过上游指针提供 C++/Rust），所有 13… | | [`open-webui-embeddings`](.claude/skills/open-webui-embeddings/SKILL.md) | 通过 LiteLLM 代理 HuggingFace Text Embeddings Inference (TEI)，将 HuggingFace embedding + reranker 模型（BGE-M3、BGE-Reranker-v2-m3 等）接入 Open WebUI 的 RAG pipeline。涵盖 Open WebUI 发送的确切网络数据结构（embed 上的 URL 自动追加… | | [`open-webui-valkey-websocket`](.claude/skills/open-webui-valkey-websocket/SKILL.md) | 在 Kubernetes 上部署具有 WebSocket 和 Valkey/Redis Sentinel 的 Open WebUI 多 pod，规模达 1000+ 用户。核心是破坏多 pod 流式传输的结构性 Socket.IO+Redis 帧放大错误 (#23733)，以及维护者认可的… | | [`openshift-app`](.claude/skills/openshift-app/SKILL.md) | 为 OpenShift 部署打包应用程序：容器镜像（UBI、任意 UID、多阶段构建）、打包格式（Helm、Kustomize、Operators、OLM v1）、CI/CD（Tekton、ArgoCD、Shipwright、Conforma）、安全性（SCC、PSA、供应链、镜像… | | [`patch`](.claude/skills/patch/SKILL.md) | 为已验证的安全发现生成候选修复方案。使用 TRIAGE.json（首选）、VULN-FINDINGS.json 或执行框架的结果目录。静态分析输入将获得一个针对每个发现的补丁 subagent + 一个独立的审查者，并且… | | [`prometheus-mimir-grafana`](.claude/skills/prometheus-mimir-grafana/SKILL.md) | 查询 Prometheus 和 Grafana Mimir，编写和调试 PromQL，并构建或修复 Grafana dashboard —— 供 agent 从指标中解决问题。涵盖 Prometheus HTTP API（`/api/v1/query`、`query_range`、`series`、`labels`、`metadata`）、Mimir… | | [`rancher-upgrade`](.claude/skills/rancher-upgrade/SKILL.md) | 规划并排序跨气隙多集群fleet的社区版 Rancher 升级 —— 一个管理/“托管”Rancher 集群及其提供的下游 RKE2/K3s 集群。涵盖社区发布模型（2.11→2.14,… | | [`secure-boot-cert-rotation`](.claude/skills/secure-boot-cert-rotation/SKILL.md) | 对跨戴尔 PowerEdge / iDRAC9 裸机、Ubuntu/Linux 服务器和 Harvester HCI / KubeVirt 客户机 VM 的 Microsoft Secure Boot 2011→2023 UEFI 证书轮换（CAs 将于 2026 年 6 月/10 月到期）进行分类和修复。建立承载负荷的… | | [`sglang-hicache`](.claude/skills/sglang-hicache/SKILL.md) | SGLang HiCache（分层 KV cache） —— 三层前缀缓存：GPU HBM (L1) → 固定主机 DRAM (L2) → 分布式 L3（Mooncake / 3FS / NIXL / AIBrix / EIC / SiMM / file / LMCache）。涵盖 `--enable-hierarchical-cache`、所有 `--hicache-*` 标志、… | | [`sglang-model-gateway`](.claude/skills/sglang-model-gateway/SKILL.md) | SGLang Model Gateway (`sgl-model-gateway`，前身为 `sgl-router`) —— 在 Kubernetes 上支持 vLLM 和 SGLang 推理 worker 的 Rust 路由器。涵盖一流的 vLLM gRPC backend 以及用于原生 vLLM 的 HTTP 透明代理、策略集（六个… | | [`skill-improver`](.claude/skills/skill-improver/SKILL.md) | 用于 Claude Code 技能的 Autoresearch 循环 —— 基于一个 10 维质量评估标准进行贪婪的保留/丢弃 hill climbing，通过盲测 subagent 验证来消除自我评分偏差，外加一个探测外部参考（发行说明、文档、…）的 `freshen` 模式 | | [`threat-model`](.claude/skills/threat-model/SKILL.md) | 为目标代码库构建威胁模型。三种模式：“interview”通过四个问题的框架引导应用程序所有者，并根据他们的回答生成威胁模型；“bootstrap”从代码和过去的记录中推导出威胁模型… | | [`transformers-config-tokenizers-expert`](.claude/skills/transformers-config-tokenizers-expert/SKILL.md) | HuggingFace snapshot 的预检参考 —— vLLM、sglang 和 transformers.generate 在运行时看到的内容。涵盖配置文件的优先级（tokenizer.json、tokenizer_config.json、generation_config.json、chat_template.jinja）、transformers v5… | | [`triage`](.claude/skills/triage/SKILL.md) | 对一批原始安全发现进行分类。验证每一个是否真实合并重复项，按推导出的可利用性重新排序，并标记负责人。获取扫描器输出的目录或文件，并写入按实际需要排序的 TRIAGE.json + TRIAGE.md… | | [`ubuntu-autoinstall`](.claude/skills/ubuntu-autoinstall/SKILL.md) | 为 Ubuntu Server LTS 24.04 和 26.04 编写、验证和调试 Ubuntu Server autoinstall 配置（Subiquity 安装程序的 `autoinstall:` schema，版本 1），专注于无人值守的本地和气隙安装 —— 身份、存储… | | [`ubuntu-cloud-init`](.claude/skills/ubuntu-cloud-init/SKILL.md) | 为 Ubuntu Server LTS 24.04 和 26.04 编写、验证和调试 cloud-init 配置，专注于通过 NoCloud 数据源的本地和气隙主机 —— `#cloud-config` user-data、cloud-config 模块（users、ssh、write_files、runcmd、… | | [`ubuntu-netplan`](.claude/skills/ubuntu-netplan/SKILL.md) | 为 Ubuntu Server LTS 24.04 和 26.04 编写、验证和调试 netplan 网络配置（`/etc/netplan/*.yaml`），专注于本地和气隙主机 —— 静态寻址、bonds、bridges、VLAN、VRF、路由/策略路由、DNS、… | | [`vllm-benchmarking`](.claude/skills/vllm-benchmarking/SKILL.md) | 运行生产环境的 vLLM 基准测试 —— `vllm bench`（serve、throughput、latency、sweep、startup、mm-processor），请求速率与最大并发语义，TTFT/TPOT/ITL/E2EL 百分位数，goodput SLO 测量，prefix-cache 工作负载，气隙… | | [`vllm-caching`](.claude/skills/vllm-caching/SKILL.md) | 用于生产环境 H100/H200 集群的 vLLM 分层 KV cache 配置。原生 CPU offload、LMCache (CPU+NVMe+GDS)、NixlConnector（分离式 prefill）、MooncakeConnector (RDMA)、MultiConnector 组合。版本控制门控，大小计算（总计标志… | | [`vllm-chat-templates`](.claude/skills/vllm-chat-templates/SKILL.md) | vLLM chat-template（prompt 侧 Jinja）运维参考。模板解析优先级（`--chat-template` → AutoProcessor → tokenizer 默认 → 捆绑的 fallback）、`chat_template_kwargs` 白名单静默丢弃… | | [`vllm-configuration`](.claude/skills/vllm-configuration/SKILL.md) | 完整配置 vLLM —— YAML 配置文件格式、CLI 参数优先级、完整的 VLLM_*/HF_*/TRANSFORMERS_* 环境变量目录，用于气隙环境的端到端方案（内部 HF 镜像、hf-mirror.com、ModelScope、带有预置的 HF_HUB_OFFLINE… | | [`vllm-deployment`](.claude/skills/vllm-deployment/SKILL.md) | 在编写、审查或修复 vLLM Kubernetes manifest、Docker/Podman pod 或 OpenShift ServingRuntime 时使用此技能 —— 即使该用户没有说“vllm”。触发条件：实验室集群性能实践、cache 挂载 + 跨… 的存活 | | [`vllm-gemma-4-31b`](.claude/skills/vllm-gemma-4-31b/SKILL.md) | 在 vLLM 上服务 Gemma 4 31B 的操作点参考 —— TP 大小调整、max_model_len、max_num_seqs、gpu_memory_utilization、kv_cache_dtype、EAGLE3 spec-dec、chat_template 选择。 | | [`vllm-input-modalities`](.claude/skills/vllm-input-modalities/SKILL.md) | vLLM 非聊天推理接口 —— 文本 embeddings（`/v1/embeddings`、`/v2/embed`）、重新排序/评分（`/rerank`、`/score`）、语音转文本（`/v1/audio/transcriptions`、`/v1/audio/translations`）、通过 VLM 的文档 OCR。涵盖 2026 `--runner pooling`… | | [`vllm-nvidia-hardware`](.claude/skills/vllm-nvidia-hardware/SKILL.md) | NVIDIA AI 硬件 + vLLM 平台参考，涵盖 Hopper (H100/H200)、Blackwell (B100/B200/B300) 和 Blackwell Ultra、Grace-Blackwell 超级芯片和 NVL72 机架（GB200、GB300）、带有 VR200 NVL144 和 Kyber NVL576 的 Vera Rubin (R100/R300)、戴尔… | | [`vllm-observability`](.claude/skills/vllm-observability/SKILL.md) | 观测生产环境 vLLM —— `/metrics` Prometheus 接口（V1 引擎），基于 TTFT/ITL/queue/KV/preemption/aborts/corrupted-logits 的 SLO 驱动告警，在 `examples/observability/` 中发布 Grafana dashboard，带有 `--otlp-traces-endpoint` 的 OTLP tracing… | | [`vllm-omni`](.claude/skills/vllm-omni/SKILL.md) | vLLM-Omni 输出侧多模态生成 —— 图像（FLUX.1/2、Qwen-Image、GLM-Image、BAGEL、SD3.5、HunyuanImage-3.0）、视频（Wan2.1/2.2、LTX-2、HunyuanVideo-1.5）、TTS（Qwen3-TTS、CosyVoice3、Voxtral-TTS）、any-to-any omni（Qwen3-Omni、Qwen2.5-Omni、… | | [`vllm-performance-tuning`](.claude/skills/vllm-performance-tuning/SKILL.md) | vLLM 性能调优运维参考 —— 调优工作流（基线 → 瓶颈 → 旋钮 → 重新基准测试）、融合 MoE kernel 自动调优（`benchmark_moe.py` 生成 `E=N,N=M,device_name=X.json` 配置）、DeepEP all-to-all + 专家并行 + EPLB、… | | [`vllm-quantization`](.claude/skills/vllm-quantization/SKILL.md) | vLLM 数据中心 GPU 量化 —— 在 H100/H200/B200/B300/GB200/GB300 上挑选、配置和排除 NVFP4、FP8、MXFP4、MXFP8、AWQ、GPTQ、INT8、compressed-tensors、modelopt、quark 的故障。29 种 `--quantization` 标志值，KV-cache dtypes（fp8_e4m3,… | | [`vllm-reasoning-parsers`](.claude/skills/vllm-reasoning-parsers/SKILL.md) | vLLM 推理解析器运维 + 开发者参考。`--reasoning-parser` CLI 连接、`ReasoningParser` 协议（非流式 `extract_reasoning` + 按增量的 `extract_reasoning_streaming`）、`is_reasoning_end` xgrammar 门控、… | | [`vllm-speculative-decoding`](.claude/skills/vllm-speculative-decoding/SKILL.md) | 在生产环境中挑选、配置、调优、监控 vLLM 推测解码。11 种 SpeculativeMethod 选项（ngram、ngram_gpu、medusa、mlp_speculator、draft_model、suffix、eagle、eagle3、dflash、mtp、extract_hidden_states）、`--speculative-config` JSON… | | [`vllm-tool-parsers`](.claude/skills/vllm-tool-parsers/SKILL.md) | vLLM 工具调用运维参考 —— 按模型系列挑选 `--tool-call-parser`、通过 `--tool-parser-plugin` 编写自定义解析器、导航 vLLM 源码 + GitHub tracker 以调试任何特定的工具调用问题。指针映射，而不是源码… | | [`vuln-scan`](.claude/skills/vuln-scan/SKILL.md) | 静态源代码漏洞扫描。读取目标目录（如果存在则读取 THREAT_MODEL.md），按重点区域生成并行审查 subagent，并写入 VULN-FINDINGS.json + .md 以供 /triage 使用。只读 —— 无构建、运行或… | 基于 MIT 许可证。

标签：AI智能体, Claude Code, 大模型推理, 子域名突变, 插件市场, 系统提示词, 自定义请求头, 运维自动化