air-gapped/skills
GitHub: air-gapped/skills
Claude Code 插件市场,提供 40+ 个覆盖 AI 推理、Kubernetes 运维、GPU 主机配置和可观测性等领域的可安装参考技能插件。
Stars: 3 | Forks: 0
# 技能
Claude Code 插件市场 —— 涵盖 vLLM/SGLang 推理、Kubernetes 和 Harvester、GPU 主机启动、可观测性、安全性以及 agent 工作流的 40 多个可安装参考技能。
## 安装
```
/plugin marketplace add air-gapped/skills
/plugin install @air-gapped-marketplace
```
插件分为单技能(例如 `jinja-expert`、`helm`、`keda`)或分组套件(例如 `vllm` —— 将所有 14 个 vLLM 参考技能捆绑在一个插件中)。有关完整列表,请参阅 `.claude-plugin/marketplace.json`。
每个插件的版本控制方案为:`0.YYYYMMDD.N`,其中 `YYYYMMDD` 是各成员技能最近一次内容更改的 UTC 日期,`N` 是涉及任何成员技能目录的唯一提交计数。运行 `/plugin update` 以获取最新的版本更新。
| 技能 | 描述 |
|---|---|
| [`aiperf`](.claude/skills/aiperf/SKILL.md) | NVIDIA AIPerf —— 厂商中立的生成式 AI 推理基准测试(genai-perf 的继任者)。涵盖具有并发 / 请求速率 / 固定计划 trace 重放 / 以用户为中心 / 多次运行置信度的 `aiperf profile`,15 种 endpoint 类型(chat,… |
| [`ansible-idrac-9-10`](.claude/skills/ansible-idrac-9-10/SKILL.md) | 针对戴尔 PowerEdge **iDRAC 9**(14G–16G)和 **iDRAC 10**(17G — R670, R770, R870, R970, XE9780, XE9785)运行和调试 `dellemc.openmanage` Ansible playbook。涵盖 iDRAC 10 / iDRAC 9 ≥ 7.30.10.50 默认的 `BasicAuthState: Unadvertised` 配置,该配置… |
| [`argo-cd-apps`](.claude/skills/argo-cd-apps/SKILL.md) | 作为 GitOps 使用者(发布者)编写和维护 Argo CD `Application` 和 `ApplicationSet` manifest,目标版本为 Argo CD v3.3 / v3.4(2026 年 5 月)。涵盖源类型(Helm、Kustomize、OCI、多源、插件)、同步策略 + 选项 + 波次 +… |
| [`autoresearch`](.claude/skills/autoresearch/SKILL.md) | Karpathy 模式 autoresearch —— 在可衡量的指标上进行自主的 hill-climbing、深度多 agent 研究,或先研究后优化。三种模式:Optimize(棘轮保留/丢弃)、Research(STORM 多视角)、Improve。 |
| [`baml-expert`](.claude/skills/baml-expert/SKILL.md) | BAML(Boundary ML)专家,适用于在 .baml 文件中将 LLM 调用定义为类型化函数并带有生成的 Python 客户端的项目。只要代码库中包含 baml_src/、baml_client/、baml-cli 命令,或者从 baml_py / baml_client 导入,即可使用。涵盖… |
| [`confluence-best-practices`](.claude/skills/confluence-best-practices/SKILL.md) | 提供关于更好地使用 Confluence 的建议,而不是如何运维它:做出结构性决定 —— 这是一个 space、一个 page,还是一个子 page?—— 诊断为什么 wiki 令人畏惧(找不到任何东西、内容腐烂、重复、被权限隐藏、无法阅读),并… |
| [`gpu-host-tuning`](.claude/skills/gpu-host-tuning/SKILL.md) | 审计并调优 Linux/GPU 推理主机 —— 只读主机快照 |
| [`harvester-upgrade`](.claude/skills/harvester-upgrade/SKILL.md) | 规划并执行从 EOL 版本到最新稳定版的、可控的社区版 Harvester HCI 升级 —— 无跳过的小版本阶梯(1.5→1.6→1.7→1.8;内嵌的 RKE2/KubeVirt/Longhorn/SLE-Micro 随之升级),在每一跳之前都受限于首先升级… |
| [`helm`](.claude/skills/helm/SKILL.md) | 此技能应用于编写或维护 Helm chart 时 —— 创建 chart、编写 template 和 _helpers.tpl、values.yaml 模式、Chart.yaml、values.schema.json、helm-docs 以及库 chart。涵盖 Helm 4(SSA、WASM、OCI digest)、… |
| [`jinja-expert`](.claude/skills/jinja-expert/SKILL.md) | 编写、阅读和调试 2026 年 Jinja 存在的三个地方的 Jinja2 模板 —— HuggingFace `chat_template.jinja`(由 `apply_chat_template` 为 vLLM / sglang 渲染)、Ansible playbook + `.j2` 文件,以及与 Jinja 相邻的 Kubernetes 工作流… |
| [`jira-best-practices`](.claude/skills/jira-best-practices/SKILL.md) | 提供关于更好地使用 Jira 的建议,而不是如何运维它:做出结构性决定 —— 这是一个 epic、一个 story、一个 task,还是一个 sub-task?—— 并诊断为什么 Jira 令人畏惧,然后推荐精简的修复方案。适应组织自身拥有的层级名称、约定、… |
| [`jira-cli`](.claude/skills/jira-cli/SKILL.md) | 使用 `jira` CLI (jira-cli, v1.7.0) 从终端驱动 Atlassian Jira,适用于任何 Jira —— Cloud 或本地/数据中心 (Data Center)。涵盖完整的命令面(issue / epic / sprint / board / project / release)、非交互式自动化… |
| [`jira-confluence-mcp`](.claude/skills/jira-confluence-mcp/SKILL.md) | 安装、配置、保护连接 agent 与 Jira/Confluence 的 mcp-atlassian MCP 服务器 (sooperset/mcp-atlassian) 并进行故障排除 —— 包括气隙 (AIR-GAPPED) 设置(通过 digest 镜像预构建的 image;无需 PyPI/git 镜像)以及内部 CA /… |
| [`k8s-components-checker`](.claude/skills/k8s-components-checker/SKILL.md) | 根据包含 19 个 stack 组件的内嵌兼容性注册表审查 RKE2 社区集群,并针对升级准备情况、漂移审查和版本偏差问题得出结论。组件:RKE2、Rancher、Harvester、Cilium、Tetragon、… |
| [`keda`](.claude/skills/keda/SKILL.md) | 配置、运维并精通 KEDA (Kubernetes Event-driven Autoscaling) —— ScaledObject、ScaledJob、TriggerAuthentication CRD、70 多个 scaler、HPA 行为调优、scale-to-zero、KEDA HTTP Add-on、生产强化、多触发器语义、… |
| [`keycloak-iam`](.claude/skills/keycloak-iam/SKILL.md) | 运维、配置、部署、保护并集成 Keycloak(开源 IAM) —— 现代的 Quarkus 发行版 (24.x–26.6.x)、带有 `Keycloak` 和 `KeycloakRealmImport` CRD 的 Keycloak Operator,以及 realm/client/identity-provider 配置。 |
| [`lmcache-mp`](.claude/skills/lmcache-mp/SKILL.md) | LMCache 多进程 (MP) 模式 —— vLLM 通过 ZMQ 连接的、位于其自身 pod/进程中的独立 LMCache 服务器。提供进程隔离、推理路径上无 GIL 争用、每个节点上的多个 vLLM pod 共享一个缓存,以及 CPU 内存… |
| [`makefile-best-practices`](.claude/skills/makefile-best-practices/SKILL.md) | 适用于 GNU Make 4.x 的 Makefile 最佳实践、模式和模板 —— 依赖图、任务运行器工作流、并行安全的 recipe、自文档化的帮助目标,以及特定语言的模式(Go、Python、Node、Docker、Helm、POSIX)。 |
| [`netbox-best-practices`](.claude/skills/netbox-best-practices/SKILL.md) | 官方 netboxlabs/skills 市场未涵盖的 NetBox 4.2-4.6 部署和升级知识 - 用于在 Kubernetes 上使用 netbox-community helm chart (netbox-chart)、外部 PostgreSQL/valkey… 部署或升级 NetBox |
| [`nvidia-datacenter-bringup`](.claude/skills/nvidia-datacenter-bringup/SKILL.md) | 在 Ubuntu 24.04 LTS 上启动 NVIDIA HGX/DGX 数据中心 GPU 主机 —— 气隙或联网环境,启用 Secure Boot。涵盖 B300/B200/H100/A100/L40S/L4 driver+fabricmanager+NVLSM+DOCA-OFED 安装顺序,以及来自 NVIDIA CUDA repo + DOCA 的确切软件包集… |
| [`nvidia-nixl`](.claude/skills/nvidia-nixl/SKILL.md) | NVIDIA Inference Xfer Library (NIXL) operator + 开发者参考。用于分布式推理(Dynamo、vLLM、SGLang)的点对点 KV-cache 和张量传输。涵盖 agent API(完整的 Python 参考;通过上游指针提供 C++/Rust),所有 13… |
| [`open-webui-embeddings`](.claude/skills/open-webui-embeddings/SKILL.md) | 通过 LiteLLM 代理 HuggingFace Text Embeddings Inference (TEI),将 HuggingFace embedding + reranker 模型(BGE-M3、BGE-Reranker-v2-m3 等)接入 Open WebUI 的 RAG pipeline。涵盖 Open WebUI 发送的确切网络数据结构(embed 上的 URL 自动追加… |
| [`open-webui-valkey-websocket`](.claude/skills/open-webui-valkey-websocket/SKILL.md) | 在 Kubernetes 上部署具有 WebSocket 和 Valkey/Redis Sentinel 的 Open WebUI 多 pod,规模达 1000+ 用户。核心是破坏多 pod 流式传输的结构性 Socket.IO+Redis 帧放大错误 (#23733),以及维护者认可的… |
| [`openshift-app`](.claude/skills/openshift-app/SKILL.md) | 为 OpenShift 部署打包应用程序:容器镜像(UBI、任意 UID、多阶段构建)、打包格式(Helm、Kustomize、Operators、OLM v1)、CI/CD(Tekton、ArgoCD、Shipwright、Conforma)、安全性(SCC、PSA、供应链、镜像… |
| [`patch`](.claude/skills/patch/SKILL.md) | 为已验证的安全发现生成候选修复方案。使用 TRIAGE.json(首选)、VULN-FINDINGS.json 或执行框架的结果目录。静态分析输入将获得一个针对每个发现的补丁 subagent + 一个独立的审查者,并且… |
| [`prometheus-mimir-grafana`](.claude/skills/prometheus-mimir-grafana/SKILL.md) | 查询 Prometheus 和 Grafana Mimir,编写和调试 PromQL,并构建或修复 Grafana dashboard —— 供 agent 从指标中解决问题。涵盖 Prometheus HTTP API(`/api/v1/query`、`query_range`、`series`、`labels`、`metadata`)、Mimir… |
| [`rancher-upgrade`](.claude/skills/rancher-upgrade/SKILL.md) | 规划并排序跨气隙多集群fleet的社区版 Rancher 升级 —— 一个管理/“托管”Rancher 集群及其提供的下游 RKE2/K3s 集群。涵盖社区发布模型(2.11→2.14,… |
| [`secure-boot-cert-rotation`](.claude/skills/secure-boot-cert-rotation/SKILL.md) | 对跨戴尔 PowerEdge / iDRAC9 裸机、Ubuntu/Linux 服务器和 Harvester HCI / KubeVirt 客户机 VM 的 Microsoft Secure Boot 2011→2023 UEFI 证书轮换(CAs 将于 2026 年 6 月/10 月到期)进行分类和修复。建立承载负荷的… |
| [`sglang-hicache`](.claude/skills/sglang-hicache/SKILL.md) | SGLang HiCache(分层 KV cache) —— 三层前缀缓存:GPU HBM (L1) → 固定主机 DRAM (L2) → 分布式 L3(Mooncake / 3FS / NIXL / AIBrix / EIC / SiMM / file / LMCache)。涵盖 `--enable-hierarchical-cache`、所有 `--hicache-*` 标志、… |
| [`sglang-model-gateway`](.claude/skills/sglang-model-gateway/SKILL.md) | SGLang Model Gateway (`sgl-model-gateway`,前身为 `sgl-router`) —— 在 Kubernetes 上支持 vLLM 和 SGLang 推理 worker 的 Rust 路由器。涵盖一流的 vLLM gRPC backend 以及用于原生 vLLM 的 HTTP 透明代理、策略集(六个… |
| [`skill-improver`](.claude/skills/skill-improver/SKILL.md) | 用于 Claude Code 技能的 Autoresearch 循环 —— 基于一个 10 维质量评估标准进行贪婪的保留/丢弃 hill climbing,通过盲测 subagent 验证来消除自我评分偏差,外加一个探测外部参考(发行说明、文档、…)的 `freshen` 模式 |
| [`threat-model`](.claude/skills/threat-model/SKILL.md) | 为目标代码库构建威胁模型。三种模式:“interview”通过四个问题的框架引导应用程序所有者,并根据他们的回答生成威胁模型;“bootstrap”从代码和过去的记录中推导出威胁模型… |
| [`transformers-config-tokenizers-expert`](.claude/skills/transformers-config-tokenizers-expert/SKILL.md) | HuggingFace snapshot 的预检参考 —— vLLM、sglang 和 transformers.generate 在运行时看到的内容。涵盖配置文件的优先级(tokenizer.json、tokenizer_config.json、generation_config.json、chat_template.jinja)、transformers v5… |
| [`triage`](.claude/skills/triage/SKILL.md) | 对一批原始安全发现进行分类。验证每一个是否真实合并重复项,按推导出的可利用性重新排序,并标记负责人。获取扫描器输出的目录或文件,并写入按实际需要排序的 TRIAGE.json + TRIAGE.md… |
| [`ubuntu-autoinstall`](.claude/skills/ubuntu-autoinstall/SKILL.md) | 为 Ubuntu Server LTS 24.04 和 26.04 编写、验证和调试 Ubuntu Server autoinstall 配置(Subiquity 安装程序的 `autoinstall:` schema,版本 1),专注于无人值守的本地和气隙安装 —— 身份、存储… |
| [`ubuntu-cloud-init`](.claude/skills/ubuntu-cloud-init/SKILL.md) | 为 Ubuntu Server LTS 24.04 和 26.04 编写、验证和调试 cloud-init 配置,专注于通过 NoCloud 数据源的本地和气隙主机 —— `#cloud-config` user-data、cloud-config 模块(users、ssh、write_files、runcmd、… |
| [`ubuntu-netplan`](.claude/skills/ubuntu-netplan/SKILL.md) | 为 Ubuntu Server LTS 24.04 和 26.04 编写、验证和调试 netplan 网络配置(`/etc/netplan/*.yaml`),专注于本地和气隙主机 —— 静态寻址、bonds、bridges、VLAN、VRF、路由/策略路由、DNS、… |
| [`vllm-benchmarking`](.claude/skills/vllm-benchmarking/SKILL.md) | 运行生产环境的 vLLM 基准测试 —— `vllm bench`(serve、throughput、latency、sweep、startup、mm-processor),请求速率与最大并发语义,TTFT/TPOT/ITL/E2EL 百分位数,goodput SLO 测量,prefix-cache 工作负载,气隙… |
| [`vllm-caching`](.claude/skills/vllm-caching/SKILL.md) | 用于生产环境 H100/H200 集群的 vLLM 分层 KV cache 配置。原生 CPU offload、LMCache (CPU+NVMe+GDS)、NixlConnector(分离式 prefill)、MooncakeConnector (RDMA)、MultiConnector 组合。版本控制门控,大小计算(总计标志… |
| [`vllm-chat-templates`](.claude/skills/vllm-chat-templates/SKILL.md) | vLLM chat-template(prompt 侧 Jinja)运维参考。模板解析优先级(`--chat-template` → AutoProcessor → tokenizer 默认 → 捆绑的 fallback)、`chat_template_kwargs` 白名单静默丢弃… |
| [`vllm-configuration`](.claude/skills/vllm-configuration/SKILL.md) | 完整配置 vLLM —— YAML 配置文件格式、CLI 参数优先级、完整的 VLLM_*/HF_*/TRANSFORMERS_* 环境变量目录,用于气隙环境的端到端方案(内部 HF 镜像、hf-mirror.com、ModelScope、带有预置的 HF_HUB_OFFLINE… |
| [`vllm-deployment`](.claude/skills/vllm-deployment/SKILL.md) | 在编写、审查或修复 vLLM Kubernetes manifest、Docker/Podman pod 或 OpenShift ServingRuntime 时使用此技能 —— 即使该用户没有说“vllm”。触发条件:实验室集群性能实践、cache 挂载 + 跨… 的存活 |
| [`vllm-gemma-4-31b`](.claude/skills/vllm-gemma-4-31b/SKILL.md) | 在 vLLM 上服务 Gemma 4 31B 的操作点参考 —— TP 大小调整、max_model_len、max_num_seqs、gpu_memory_utilization、kv_cache_dtype、EAGLE3 spec-dec、chat_template 选择。 |
| [`vllm-input-modalities`](.claude/skills/vllm-input-modalities/SKILL.md) | vLLM 非聊天推理接口 —— 文本 embeddings(`/v1/embeddings`、`/v2/embed`)、重新排序/评分(`/rerank`、`/score`)、语音转文本(`/v1/audio/transcriptions`、`/v1/audio/translations`)、通过 VLM 的文档 OCR。涵盖 2026 `--runner pooling`… |
| [`vllm-nvidia-hardware`](.claude/skills/vllm-nvidia-hardware/SKILL.md) | NVIDIA AI 硬件 + vLLM 平台参考,涵盖 Hopper (H100/H200)、Blackwell (B100/B200/B300) 和 Blackwell Ultra、Grace-Blackwell 超级芯片和 NVL72 机架(GB200、GB300)、带有 VR200 NVL144 和 Kyber NVL576 的 Vera Rubin (R100/R300)、戴尔… |
| [`vllm-observability`](.claude/skills/vllm-observability/SKILL.md) | 观测生产环境 vLLM —— `/metrics` Prometheus 接口(V1 引擎),基于 TTFT/ITL/queue/KV/preemption/aborts/corrupted-logits 的 SLO 驱动告警,在 `examples/observability/` 中发布 Grafana dashboard,带有 `--otlp-traces-endpoint` 的 OTLP tracing… |
| [`vllm-omni`](.claude/skills/vllm-omni/SKILL.md) | vLLM-Omni 输出侧多模态生成 —— 图像(FLUX.1/2、Qwen-Image、GLM-Image、BAGEL、SD3.5、HunyuanImage-3.0)、视频(Wan2.1/2.2、LTX-2、HunyuanVideo-1.5)、TTS(Qwen3-TTS、CosyVoice3、Voxtral-TTS)、any-to-any omni(Qwen3-Omni、Qwen2.5-Omni、… |
| [`vllm-performance-tuning`](.claude/skills/vllm-performance-tuning/SKILL.md) | vLLM 性能调优运维参考 —— 调优工作流(基线 → 瓶颈 → 旋钮 → 重新基准测试)、融合 MoE kernel 自动调优(`benchmark_moe.py` 生成 `E=N,N=M,device_name=X.json` 配置)、DeepEP all-to-all + 专家并行 + EPLB、… |
| [`vllm-quantization`](.claude/skills/vllm-quantization/SKILL.md) | vLLM 数据中心 GPU 量化 —— 在 H100/H200/B200/B300/GB200/GB300 上挑选、配置和排除 NVFP4、FP8、MXFP4、MXFP8、AWQ、GPTQ、INT8、compressed-tensors、modelopt、quark 的故障。29 种 `--quantization` 标志值,KV-cache dtypes(fp8_e4m3,… |
| [`vllm-reasoning-parsers`](.claude/skills/vllm-reasoning-parsers/SKILL.md) | vLLM 推理解析器运维 + 开发者参考。`--reasoning-parser` CLI 连接、`ReasoningParser` 协议(非流式 `extract_reasoning` + 按增量的 `extract_reasoning_streaming`)、`is_reasoning_end` xgrammar 门控、… |
| [`vllm-speculative-decoding`](.claude/skills/vllm-speculative-decoding/SKILL.md) | 在生产环境中挑选、配置、调优、监控 vLLM 推测解码。11 种 SpeculativeMethod 选项(ngram、ngram_gpu、medusa、mlp_speculator、draft_model、suffix、eagle、eagle3、dflash、mtp、extract_hidden_states)、`--speculative-config` JSON… |
| [`vllm-tool-parsers`](.claude/skills/vllm-tool-parsers/SKILL.md) | vLLM 工具调用运维参考 —— 按模型系列挑选 `--tool-call-parser`、通过 `--tool-parser-plugin` 编写自定义解析器、导航 vLLM 源码 + GitHub tracker 以调试任何特定的工具调用问题。指针映射,而不是源码… |
| [`vuln-scan`](.claude/skills/vuln-scan/SKILL.md) | 静态源代码漏洞扫描。读取目标目录(如果存在则读取 THREAT_MODEL.md),按重点区域生成并行审查 subagent,并写入 VULN-FINDINGS.json + .md 以供 /triage 使用。只读 —— 无构建、运行或… |
基于 MIT 许可证。
标签:AI智能体, Claude Code, 大模型推理, 子域名突变, 插件市场, 系统提示词, 自定义请求头, 运维自动化