vllm-project/vllm-ascend
GitHub: vllm-project/vllm-ascend
一个让 vLLM 大模型推理引擎能够在华为昇腾 NPU 上无缝运行的社区维护硬件插件。
Stars: 1716 | Forks: 863
vLLM Ascend 插件
[](https://deepwiki.com/vllm-project/vllm-ascend)
| 关于 Ascend | 文档 | #SIG-Ascend | 用户论坛 | 每周会议 |
*最新动态* 🔥 - [2026/02] 我们发布了新的官方版本 [v0.13.0](https://github.com/vllm-project/vllm-ascend/releases/tag/v0.13.0)!请遵循[官方指南](https://docs.vllm.ai/projects/ascend/en/v0.13.0/)开始在 Ascend 上使用 vLLM Ascend Plugin。 - [2025/12] 我们发布了新的官方版本 [v0.11.0](https://github.com/vllm-project/vllm-ascend/releases/tag/v0.11.0)!请遵循[官方指南](https://docs.vllm.ai/projects/ascend/en/v0.11.0/)开始在 Ascend 上使用 vLLM Ascend Plugin。 - [2025/09] 我们发布了新的官方版本 [v0.9.1](https://github.com/vllm-project/vllm-ascend/releases/tag/v0.9.1)!请遵循[官方指南](https://docs.vllm.ai/projects/ascend/en/v0.9.1/tutorials/large_scale_ep.html)开始在 Ascend 上部署大规模 Expert Parallelism (EP)。 - [2025/08] 我们与 vLLM 和腾讯共同举办了 [vLLM 北京聚会](https://mp.weixin.qq.com/s/7n8OYNrCC_I9SJaybHA_-Q)!请在此处[查看聚会幻灯片](https://drive.google.com/drive/folders/1Pid6NSFLU43DZRi0EaTcPgXsAzDvbBqF)。 - [2025/06] [用户案例](https://docs.vllm.ai/projects/ascend/en/latest/community/user_stories/index.html)页面已上线!首期展示了 LLaMA-Factory/verl/TRL/GPUStack,演示 vLLM Ascend 如何帮助 Ascend 用户在微调、评估、强化学习 (RL) 和部署场景中提升体验。 - [2025/06] [贡献者](https://docs.vllm.ai/projects/ascend/en/latest/community/contributors.html)页面已上线!所有贡献都值得被记录,感谢所有贡献者。 - [2025/05] 我们发布了首个官方版本 [v0.7.3](https://github.com/vllm-project/vllm-ascend/releases/tag/v0.7.3)!我们与 vLLM 社区合作发布了一篇博客文章,分享我们的实践:[介绍 vLLM 硬件插件:来自 Ascend NPU 的最佳实践](https://blog.vllm.ai/2025/05/12/hardware-plugin.html)。 - [2025/03] 我们与 vLLM 团队共同举办了 [vLLM 北京聚会](https://mp.weixin.qq.com/s/VtxO9WXa5fC-mKqlxNUJUQ)!请在此处[查看聚会幻灯片](https://drive.google.com/drive/folders/1Pid6NSFLU43DZRi0EaTcPgXsAzDvbBqF)。 - [2025/02] vLLM 社区正式创建了 [vllm-project/vllm-ascend](https://github.com/vllm-project/vllm-ascend) 代码仓库,用于在 Ascend NPU 上无缝运行 vLLM。 - [2024/12] 我们正在与 vLLM 社区合作支持 [[RFC]: Hardware pluggable](https://github.com/vllm-project/vllm/issues/11162)。 ## 概述 vLLM Ascend (`vllm-ascend`) 是一个由社区维护的硬件插件,用于在 Ascend NPU 上无缝运行 vLLM。 这是在 vLLM 社区中支持 Ascend 后端的推荐方案。它遵循 [[RFC]: Hardware pluggable](https://github.com/vllm-project/vllm/issues/11162) 中概述的原则,提供硬件可插拔接口,将 Ascend NPU 与 vLLM 的集成解耦。 通过使用 vLLM Ascend 插件,流行的开源模型,包括 Transformer 类、Mixture-of-Experts (MoE)、Embedding、多模态 LLM,都可以在 Ascend NPU 上无缝运行。 ## 前置条件 - 硬件:Atlas 800I A2 推理系列、Atlas A2 训练系列、Atlas 800I A3 推理系列、Atlas A3 训练系列、Atlas 300I Duo (实验性) - 操作系统:Linux - 软件: - Python >= 3.10, < 3.12 - CANN == 8.5.0 (Ascend HDK 版本参见[此处](https://www.hiascend.com/document/detail/zh/canncommercial/83RC2/releasenote/releasenote_0000.html)) - PyTorch == 2.9.0, torch-npu == 2.9.0 - vLLM (版本与 vllm-ascend 相同) ## 快速入门 请使用以下推荐版本快速开始: | 版本 | 发布类型 | 文档 | |------------|--------------|--------------------------------------| | v0.14.0rc1 | 最新候选发布版本 | 详情请参见 [快速入门](https://docs.vllm.ai/projects/ascend/en/latest/quick_start.html) 和 [安装说明](https://docs.vllm.ai/projects/ascend/en/latest/installation.html) | | v0.13.0 | 最新稳定版本 | 详情请参见 [快速入门](https://docs.vllm.ai/projects/ascend/en/v0.13.0/quick_start.html) 和 [安装说明](https://docs.vllm.ai/projects/ascend/en/v0.13.0/installation.html) | ## 贡献 详情请参见 [贡献指南](https://docs.vllm.ai/projects/ascend/en/latest/developer_guide/contribution/index.html),这是一份分步指南,可帮助您设置开发环境、构建和测试。 我们欢迎并重视任何贡献与合作: - 如果您遇到 Bug,请通过[提交 Issue](https://github.com/vllm-project/vllm-ascend/issues) 告知我们 - 如有使用问题和帮助需求,请使用 [用户论坛](https://discuss.vllm.ai/c/hardware-support/vllm-ascend-support)。 ## 分支 vllm-ascend 拥有一个主分支和一个开发分支。 - **main**:主分支,对应 vLLM 主分支,并通过 Ascend CI 持续监控质量。 - **releases/vX.Y.Z**:开发分支,随 vLLM 新版本一同创建。例如,`releases/v0.13.0` 是 vLLM `v0.13.0` 版本的开发分支。 以下是当前维护的分支: | 分支 | 状态 | 备注 | |------------|--------------|--------------------------------------| | main | 维护中 | vLLM 主分支和 vLLM v0.13.0 标签的 CI 承诺 | | v0.7.1-dev | 不再维护 | 仅允许修复文档 | | v0.7.3-dev | 维护中 | vLLM 0.7.3 版本的 CI 承诺,仅允许修复 Bug,且不再发布新的版本标签。 | | v0.9.1-dev | 维护中 | vLLM 0.9.1 版本的 CI 承诺 | | v0.11.0-dev | 维护中 | vLLM 0.11.0 版本的 CI 承诺 | | releases/v0.13.0 | 维护中 | vLLM 0.13.0 版本的 CI 承诺 | | rfc/feature-name | 维护中 | 用于协作的[功能分支](https://docs.vllm.ai/projects/ascend/en/latest/community/versioning_policy.html#feature-branches) | 详情请参见[版本策略](https://docs.vllm.ai/projects/ascend/en/latest/community/versioning_policy.html)。 ## 每周会议 - vLLM Ascend 每周会议:标签:Ascend, DNS解析, LLM, NPU, PyTorch, Unmanaged PE, vLLM, vLLM-Ascend, 人工智能, 凭据扫描, 华为昇腾, 大模型推理, 开源项目, 异构计算, 推理加速, 模型部署, 深度学习, 用户模式Hook绕过, 硬件插件, 逆向工具, 高性能计算