NVIDIA/infra-controller-core

GitHub: NVIDIA/infra-controller

NVIDIA 推出的裸机基础设施生命周期管理控制器,通过零信任架构与 DPU 强制隔离实现安全的多租户裸机自动化运维。

Stars: 195 | Forks: 125

# NVIDIA Infra Controller NVIDIA Infra Controller (NICo) 为裸机系统提供了零接触生命周期自动化, 从根本上保障了数据中心基础设施的安全。 它是一个基于 API 的微服务,提供站点本地、零信任的裸机生命周期管理, 并具有 DPU 强制的隔离性。NICo 将裸机生命周期的复杂操作自动化, 以加速构建下一代 AI 云产品。 ## 入门指南 - 访问 [NVIDIA Infra Controller 概述](https://docs.nvidia.com/infra-controller/documentation/overview/what-is-nico) 以了解 NICo 的架构和功能。 - 或者直接跳转到 [快速入门指南](https://docs.nvidia.com/infra-controller/documentation/getting-started/quick-start-guide) 开始设置您的 NICo 站点。 - 查看 [使用 DevSpace 进行本地开发](dev/deployment/devspace/README.md),以使用模拟系统在本地运行 NICo。 ## 裸机集群设置 `helm-prereqs/setup.sh` 将完整的 NVIDIA Infra Controller 技术栈分三层部署到裸机 Kubernetes 集群上: | 层 | 安装内容 | Helm release | |-------|-----------------|--------------| | **公共服务** | MetalLB, cert-manager, Vault, external-secrets, PostgreSQL | 通过 `helm-prereqs/` 中的 `helmfile` | | **Carbide Core** | NVIDIA Infra Controller(此代码仓库的 `helm/` chart) | `forge-system` 中的 `carbide` | | **Carbide REST** | NVIDIA Infra Controller 的 REST API, Temporal, Keycloak, site-agent | `carbide-rest` 中的 `carbide-rest` + `carbide-rest-site-agent` | ### 前置条件 - 一个正在运行的 Kubernetes 集群,并已设置 `KUBECONFIG` - 已安装 `helm`, `helmfile`, `kubectl`, `jq` - 镜像已推送到您的容器镜像仓库 ### 快速开始 ``` # 1. 构建并将镜像推送到您的 registry # Carbide Core 镜像: /nvmetal-carbide: (本仓库) # Carbide REST 镜像: /carbide-rest-api: 等。(infra-controller-rest) # 2. 设置环境变量 export KUBECONFIG=/path/to/kubeconfig export REGISTRY_PULL_SECRET= export NCX_IMAGE_REGISTRY= # e.g. my-registry.example.com/infra-controller export NCX_CORE_IMAGE_TAG= # e.g. v2025.12.30 export NCX_REST_IMAGE_TAG= # e.g. v1.0.4 # 3. 自定义特定站点的值 # 编辑 helm-prereqs/values/ncx-core.yaml: # carbide-api.hostname — 您站点的外部 API 主机名 # carbide-api.siteConfig — 网络池、VLAN 范围、IB config、MetalLB VIP # 编辑 helm-prereqs/values/metallb-config.yaml: # IPAddressPool, BGPPeer — 您站点的 VIP 范围和 TOR switch 配置 # 编辑 helm-prereqs/values.yaml: # siteName — 简短的站点标识符 # 4. 将 NCX_REPO 指向 infra-controller-rest (如果是同级目录则会自动检测) export NCX_REPO=/path/to/infra-controller-rest # optional # 5. 运行 setup — 按顺序安装 common services、Carbide Core 和 Carbide REST cd helm-prereqs ./setup.sh # interactive ./setup.sh -y # non-interactive (CI/CD) ``` 要卸载所有内容: ``` cd helm-prereqs ./clean.sh ``` 有关完整的参考信息(包括 PKI 架构、PostgreSQL 设置、分阶段描述、密钥参考和故障排除),请参阅 [helm-prereqs/README.md](helm-prereqs/README.md)。 ## 实验性声明 本软件被视为*实验性*软件,属于预览版本。在生产环境中 使用需自行承担风险。本软件按“原样”提供, 不提供任何形式的保证。其功能、API 和配置可能会在未来的版本中 未经通知而发生变更。对于生产环境的部署,请先在非关键环境中进行 全面测试。
标签:AI云基础设施, Bare-Metal, cert-manager, DPU, Helm, Helmfile, Keycloak, MetalLB, NIDS, PostgreSQL, REST API, Temporal, Vault, 云计算, 基础设施管理, 多租户网络, 子域名突变, 安全隔离, 容器化, 数据中心自动化, 日志审计, 测试用例, 特权提升, 生命周期管理, 硬件管理, 网络隔离, 自动化部署, 裸金属服务器, 规则引擎, 通知系统, 零信任网络, 零接触部署