kubeflow/trainer

GitHub: kubeflow/trainer

一个 Kubernetes 原生的分布式训练平台，旨在通过统一的接口简化多框架模型训练与大语言模型微调流程。

Stars: 2051 | Forks: 926

# Kubeflow Trainer [![加入 Slack](https://img.shields.io/badge/Join_Slack-blue?logo=slack)](https://www.kubeflow.org/docs/about/community/#kubeflow-slack-channels) [![覆盖率状态](https://coveralls.io/repos/github/kubeflow/trainer/badge.svg?branch=master)](https://coveralls.io/github/kubeflow/trainer?branch=master) [![Go 报告卡](https://goreportcard.com/badge/github.com/kubeflow/trainer)](https://goreportcard.com/report/github.com/kubeflow/trainer) [![OpenSSF 最佳实践](https://www.bestpractices.dev/projects/10435/badge)](https://www.bestpractices.dev/projects/10435) [![询问 DeepWiki](https://deepwiki.com/badge.svg)](https://deepwiki.com/kubeflow/trainer) [![FOSSA 状态](https://app.fossa.com/api/projects/git%2Bgithub.com%2Fkubeflow%2Ftrainer.svg?type=shield)](https://app.fossa.com/projects/git%2Bgithub.com%2Fkubeflow%2Ftrainer?ref=badge_shield)

最新动态 🔥 - [2025/11] Kubeflow Trainer v2.1 正式发布，支持[分布式数据缓存](https://www.kubeflow.org/docs/components/trainer/user-guides/data-cache/)、与 Kueue 和 Volcano 配合的拓扑感知调度，以及 LLM 训练后增强。请查看 [GitHub 发布说明](https://github.com/kubeflow/trainer/releases/tag/v2.1.0)。 - [2025/09] Kubeflow SDK v0.1 正式发布，支持 CustomTrainer、BuiltinTrainer 和本地 PyTorch 执行。请查看 [GitHub 发布说明](https://github.com/kubeflow/sdk/releases/tag/0.1.0)。 - [2025/07] Kubernetes 上的 PyTorch：Kubeflow Trainer 加入 PyTorch 生态系统。请在 [PyTorch 博客文章](https://pytorch.org/blog/pytorch-on-kubernetes-kubeflow-trainer-joins-the-pytorch-ecosystem/)中查看公告。

- [2025/07] Kubeflow Trainer v2.0 已正式发布。请查看[博客文章公告](https://blog.kubeflow.org/trainer/intro/)和[发布说明](https://github.com/kubeflow/trainer/releases/tag/v2.0.0)。 - [2025/04] 从高性能计算到 Kubernetes 上的 AI 工作负载：Kubeflow TrainJob 中的 MPI Runtime。请参阅 [KubeCon + CloudNativeCon London 演讲](https://youtu.be/Fnb1a5Kaxgo)

## 概述 Kubeflow Trainer 是一个 Kubernetes 原生的分布式 AI 平台，支持跨多种框架（包括 PyTorch、MLX、HuggingFace、DeepSpeed、JAX、XGBoost 等）进行可扩展的大语言模型 (LLM) 微调和 AI 模型训练。 Kubeflow Trainer 将 MPI 引入 Kubernetes，在高性能计算 (HPC) 集群中高效编排多节点、多 GPU 的分布式作业。这使得进程间能够进行高吞吐量的通信，非常适合需要在 GPU 节点之间进行超快同步的大规模 AI 训练。 Kubeflow Trainer 与云原生 AI 生态系统无缝集成，包括用于拓扑感知调度和多集群作业分发的 [Kueue](https://kueue.sigs.k8s.io/docs/tasks/run/trainjobs/)，以及用于 AI 工作负载编排的 [JobSet](https://github.com/kubernetes-sigs/jobset) 和 [LeaderWorkerSet](https://github.com/kubernetes-sigs/lws)。 Kubeflow Trainer 提供了一个分布式数据缓存，旨在通过零拷贝传输直接将大规模数据流式传输到 GPU 节点。这确保了内存高效的训练作业，同时最大限度地提高了 GPU 利用率。借助 [Kubeflow Python SDK](https://github.com/kubeflow/sdk)，AI 从业者可以利用 Kubeflow Trainer API：TrainJob 和 Runtimes，轻松地开发和微调 LLM。

## Kubeflow Trainer 介绍请查看以下关于 Kubeflow Trainer 功能的 KubeCon + CloudNativeCon 演讲： [![Kubeflow Trainer](https://img.youtube.com/vi/Lgy4ir1AhYw/0.jpg)](https://www.youtube.com/watch?v=Lgy4ir1AhYw) 更多演讲： - [从高性能计算到 Kubernetes 上的 AI 工作负载：Kubeflow TrainJob 中的 MPI Runtime](https://youtu.be/Fnb1a5Kaxgo) - [使用 Kubeflow LLM Trainer 在 Kubernetes 上简化 LLM 微调](https://youtu.be/O7cNlaz3Hqs) ## 快速入门请查阅 [Kubeflow Trainer 官方文档](https://www.kubeflow.org/docs/components/trainer/getting-started)以安装并开始使用 Kubeflow Trainer。 ## 更新日志请参阅 [CHANGELOG](CHANGELOG.md)。 ## Kubeflow Training Operator V1 Kubeflow Trainer 项目目前处于 alpha 阶段，API 可能会发生变化。如果您正在使用 Kubeflow Training Operator V1，请参考[此迁移文档](https://www.kubeflow.org/docs/components/trainer/operator-guides/migration/)。 Kubeflow 社区将在 [`release-1.9` 分支](https://github.com/kubeflow/trainer/tree/release-1.9)维护 Training Operator V1 源代码。您可以在[这些指南](https://www.kubeflow.org/docs/components/trainer/legacy-v1)中找到 Kubeflow Training Operator V1 的文档。 ## 致谢该项目最初是作为 TensorFlow 的分布式训练 Operator 启动的，后来我们合并了其他 Kubeflow Training Operator 的成果，以便为用户和开发者提供统一且简化的体验。我们非常感谢所有提交问题或帮助解决问题、提问和回答问题以及参与启发式讨论的人。我们还要感谢所有贡献和维护原始 Operator 的人。 - PyTorch Operator：[贡献者列表](https://github.com/kubeflow/pytorch-operator/graphs/contributors)和[维护者](https://github.com/kubeflow/pytorch-operator/blob/master/OWNERS)。 - MPI Operator：[贡献者列表](https://github.com/kubeflow/mpi-operator/graphs/contributors)和[维护者](https://github.com/kubeflow/mpi-operator/blob/master/OWNERS)。 - XGBoost Operator：[贡献者列表](https://github.com/kubeflow/xgboost-operator/graphs/contributors)和[维护者](https://github.com/kubeflow/xgboost-operator/blob/master/OWNERS)。 - 公共库：[贡献者列表](https://github.com/kubeflow/common/graphs/contributors)和[维护者](https://github.com/kubeflow/common/blob/master/OWNERS)。

标签：AI基础设施, Apex, DLL 劫持, DNS解析, EVTX分析, Go, Kubeflow, Kueue, LLM微调, MLOps, NIDS, Python SDK, PyTorch, Ruby工具, Trainer, Volcano, 人工智能, 任务调度, 凭据扫描, 分布式训练, 大语言模型, 子域名突变, 容器化, 开源项目, 异构计算, 拓扑感知调度, 数据缓存, 日志审计, 机器学习, 模型训练, 深度学习, 深度神经网络, 用户模式Hook绕过, 神经网络, 请求拦截, 逆向工具, 高性能计算