NVIDIA/infra-controller-core
GitHub: NVIDIA/infra-controller
NVIDIA 推出的裸机基础设施生命周期管理控制器,通过零信任架构与 DPU 强制隔离实现安全的多租户裸机自动化运维。
Stars: 195 | Forks: 125
# NVIDIA Infra Controller
NVIDIA Infra Controller (NICo) 为裸机系统提供了零接触生命周期自动化,
从根本上保障了数据中心基础设施的安全。
它是一个基于 API 的微服务,提供站点本地、零信任的裸机生命周期管理,
并具有 DPU 强制的隔离性。NICo 将裸机生命周期的复杂操作自动化,
以加速构建下一代 AI 云产品。
## 入门指南
- 访问 [NVIDIA Infra Controller 概述](https://docs.nvidia.com/infra-controller/documentation/overview/what-is-nico) 以了解 NICo 的架构和功能。
- 或者直接跳转到 [快速入门指南](https://docs.nvidia.com/infra-controller/documentation/getting-started/quick-start-guide) 开始设置您的 NICo 站点。
- 查看 [使用 DevSpace 进行本地开发](dev/deployment/devspace/README.md),以使用模拟系统在本地运行 NICo。
## 裸机集群设置
`helm-prereqs/setup.sh` 将完整的 NVIDIA Infra Controller 技术栈分三层部署到裸机 Kubernetes 集群上:
| 层 | 安装内容 | Helm release |
|-------|-----------------|--------------|
| **公共服务** | MetalLB, cert-manager, Vault, external-secrets, PostgreSQL | 通过 `helm-prereqs/` 中的 `helmfile` |
| **Carbide Core** | NVIDIA Infra Controller(此代码仓库的 `helm/` chart) | `forge-system` 中的 `carbide` |
| **Carbide REST** | NVIDIA Infra Controller 的 REST API, Temporal, Keycloak, site-agent | `carbide-rest` 中的 `carbide-rest` + `carbide-rest-site-agent` |
### 前置条件
- 一个正在运行的 Kubernetes 集群,并已设置 `KUBECONFIG`
- 已安装 `helm`, `helmfile`, `kubectl`, `jq`
- 镜像已推送到您的容器镜像仓库
### 快速开始
```
# 1. 构建并将镜像推送到您的 registry
# Carbide Core 镜像: /nvmetal-carbide: (本仓库)
# Carbide REST 镜像: /carbide-rest-api: 等。(infra-controller-rest)
# 2. 设置环境变量
export KUBECONFIG=/path/to/kubeconfig
export REGISTRY_PULL_SECRET=
export NCX_IMAGE_REGISTRY= # e.g. my-registry.example.com/infra-controller
export NCX_CORE_IMAGE_TAG= # e.g. v2025.12.30
export NCX_REST_IMAGE_TAG= # e.g. v1.0.4
# 3. 自定义特定站点的值
# 编辑 helm-prereqs/values/ncx-core.yaml:
# carbide-api.hostname — 您站点的外部 API 主机名
# carbide-api.siteConfig — 网络池、VLAN 范围、IB config、MetalLB VIP
# 编辑 helm-prereqs/values/metallb-config.yaml:
# IPAddressPool, BGPPeer — 您站点的 VIP 范围和 TOR switch 配置
# 编辑 helm-prereqs/values.yaml:
# siteName — 简短的站点标识符
# 4. 将 NCX_REPO 指向 infra-controller-rest (如果是同级目录则会自动检测)
export NCX_REPO=/path/to/infra-controller-rest # optional
# 5. 运行 setup — 按顺序安装 common services、Carbide Core 和 Carbide REST
cd helm-prereqs
./setup.sh # interactive
./setup.sh -y # non-interactive (CI/CD)
```
要卸载所有内容:
```
cd helm-prereqs
./clean.sh
```
有关完整的参考信息(包括 PKI 架构、PostgreSQL 设置、分阶段描述、密钥参考和故障排除),请参阅 [helm-prereqs/README.md](helm-prereqs/README.md)。
## 实验性声明
本软件被视为*实验性*软件,属于预览版本。在生产环境中
使用需自行承担风险。本软件按“原样”提供,
不提供任何形式的保证。其功能、API 和配置可能会在未来的版本中
未经通知而发生变更。对于生产环境的部署,请先在非关键环境中进行
全面测试。
标签:AI云基础设施, Bare-Metal, cert-manager, DPU, Helm, Helmfile, Keycloak, MetalLB, NIDS, PostgreSQL, REST API, Temporal, Vault, 云计算, 基础设施管理, 多租户网络, 子域名突变, 安全隔离, 容器化, 数据中心自动化, 日志审计, 测试用例, 特权提升, 生命周期管理, 硬件管理, 网络隔离, 自动化部署, 裸金属服务器, 规则引擎, 通知系统, 零信任网络, 零接触部署