NVIDIA/gpu-operator

GitHub: NVIDIA/gpu-operator

NVIDIA GPU Operator 利用 Kubernetes Operator 框架，自动化部署、配置和管理集群中 NVIDIA GPU 所需的驱动、设备插件及监控等所有软件组件。

Stars: 2637 | Forks: 483

[![license](https://img.shields.io/github/license/NVIDIA/gpu-operator?style=flat-square)](https://raw.githubusercontent.com/NVIDIA/gpu-operator/master/LICENSE) [![pipeline status](https://gitlab.com/nvidia/kubernetes/gpu-operator/badges/master/pipeline.svg)](https://gitlab.com/nvidia/kubernetes/gpu-operator/-/pipelines) [![coverage report](https://gitlab.com/nvidia/kubernetes/gpu-operator/badges/master/coverage.svg)](https://gitlab.com/nvidia/kubernetes/gpu-operator/-/pipelines) # NVIDIA GPU Operator ![nvidia-gpu-operator](https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/egx/nvidia-egx-platform-gold-image-full-2c50-d@2x.jpg) Kubernetes 通过 [device plugin framework](https://kubernetes.io/docs/concepts/extend-kubernetes/compute-storage-net/device-plugins/) 对特殊硬件资源（如 NVIDIA GPU、NIC、Infiniband 适配器和其他设备）提供访问支持。然而，配置和管理具有这些硬件资源的节点需要配置多个软件组件（例如驱动程序、容器运行时或其他库），这既复杂又容易出错。 NVIDIA GPU Operator 利用 Kubernetes 内部的 [operator framework](https://cloud.redhat.com/blog/introducing-the-operator-framework)，自动化管理配置 GPU 所需的所有 NVIDIA 软件组件。这些组件包括 NVIDIA 驱动程序（用于启用 CUDA）、用于 GPU 的 Kubernetes 设备插件、NVIDIA Container Runtime、自动节点标记、基于 [DCGM](https://developer.nvidia.com/dcgm) 的监控以及其他组件。 ## 目标用户和用例 GPU Operator 允许 Kubernetes 集群管理员像管理集群中的 CPU 节点一样管理 GPU 节点。管理员无需为 GPU 节点准备特殊的操作系统镜像，而是可以对 CPU 和 GPU 节点使用标准的操作系统镜像，然后依靠 GPU Operator 来为 GPU 配置所需的软件组件。请注意，GPU Operator 特别适用于需要快速扩展 Kubernetes 集群的场景——例如在云端或本地配置额外的 GPU 节点，并管理底层软件组件的生命周期。由于 GPU Operator 将所有组件（包括 NVIDIA 驱动程序）作为容器运行，管理员可以通过启动或停止容器轻松更换各种组件。 ## 快速开始本部分提供了使用数据中心驱动程序部署 GPU Operator 的快速指南。请确保您的 Kubernetes 集群满足[前提条件](https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/latest/getting-started.html#prerequisites)，并且列在[平台支持页面](https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/latest/platform-support.html#supported-operating-systems-and-kubernetes-platforms)上。 **步骤 1：添加 NVIDIA Helm 仓库** ``` helm repo add nvidia https://helm.ngc.nvidia.com/nvidia \ && helm repo update ``` **步骤 2：部署 GPU Operator** ``` helm install --wait --generate-name \ -n gpu-operator --create-namespace \ nvidia/gpu-operator ``` 安装完成后，GPU Operator 及其操作数（operands）应该已经启动并正在运行。注意：要在 OpenShift 上部署 GPU Operator，请遵循[官方文档](https://docs.nvidia.com/datacenter/cloud-native/openshift/latest/steps-overview.html)中的说明。 ## 产品文档有关平台支持和入门信息，请访问官方文档[仓库](https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/overview.html)。 ## 路线图 - 支持最新的 NVIDIA 数据中心 GPU、系统和驱动程序。 - 支持 RHEL 10。 - 支持带有 Ubuntu 24.04 的 KubeVirt。 - 将 [NVIDIADriver](https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/latest/gpu-driver-configuration.html) CRD 推进至正式发布（GA）阶段。 - 将 [NVIDIA’s DRA Driver for GPUs](https://github.com/NVIDIA/k8s-dra-driver-gpu) 作为 GPU Operator 的受管组件集成进来。 ## 网络研讨会 [How to easily use GPUs on Kubernetes](https://info.nvidia.com/how-to-use-gpus-on-kubernetes-webinar.html) ## 贡献 [阅读贡献相关文档](https://github.com/NVIDIA/gpu-operator/blob/master/CONTRIBUTING.md)。您可以通过提交 [pull request](https://help.github.com/en/articles/about-pull-requests) 做出贡献。 ## 支持与获取帮助如有任何问题，请在 [GitHub 项目上提交 issue](https://github.com/NVIDIA/gpu-operator/issues/new)。我们感谢您的反馈。

标签：AI基础设施, Apex, CUDA, DCGM, EVTX分析, GPU, GPU驱动, HPC, Operator, 云计算, 基础设施, 子域名突变, 容器编排, 容器运行时, 提示注入, 数据中心, 日志审计, 机器学习, 深度学习, 特权提升, 监控, 硬件加速, 系统运维, 自动化部署, 节点管理, 规则引擎, 设备插件, 请求拦截, 资源调度, 集群管理, 高性能计算