vllm-project/vllm-ascend

GitHub: vllm-project/vllm-ascend

一个让 vLLM 大模型推理引擎能够在华为昇腾 NPU 上无缝运行的社区维护硬件插件。

Stars: 2244 | Forks: 1398

vllm-ascend

vLLM Ascend 插件

[![DeepWiki](https://img.shields.io/badge/DeepWiki-Ask_AI-_.svg?style=flat&color=0052D9&labelColor=000000&logo=data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAACwAAAAyCAYAAAAnWDnqAAAAAXNSR0IArs4c6QAAA05JREFUaEPtmUtyEzEQhtWTQyQLHNak2AB7ZnyXZMEjXMGeK/AIi+QuHrMnbChYY7MIh8g01fJoopFb0uhhEqqcbWTp06/uv1saEDv4O3n3dV60RfP947Mm9/SQc0ICFQgzfc4CYZoTPAswgSJCCUJUnAAoRHOAUOcATwbmVLWdGoH//PB8mnKqScAhsD0kYP3j/Yt5LPQe2KvcXmGvRHcDnpxfL2zOYJ1mFwrryWTz0advv1Ut4CJgf5uhDuDj5eUcAUoahrdY/56ebRWeraTjMt/00Sh3UDtjgHtQNHwcRGOC98BJEAEymycmYcWwOprTgcB6VZ5JK5TAJ+fXGLBm3FDAmn6oPPjR4rKCAoJCal2eAiQp2x0vxTPB3ALO2CRkwmDy5WohzBDwSEFKRwPbknEggCPB/imwrycgxX2NzoMCHhPkDwqYMr9tRcP5qNrMZHkVnOjRMWwLCcr8ohBVb1OMjxLwGCvjTikrsBOiA6fNyCrm8V1rP93iVPpwaE+gO0SsWmPiXB+jikdf6SizrT5qKasx5j8ABbHpFTx+vFXp9EnYQmLx02h1QTTrl6eDqxLnGjporxl3NL3agEvXdT0WmEost648sQOYAeJS9Q7bfUVoMGnjo4AZdUMQku50McDcMWcBPvr0SzbTAFDfvJqwLzgxwATnCgnp4wDl6Aa+Ax283gghmj+vj7feE2KBBRMW3FzOpLOADl0Isb5587h/U4gGvkt5v60Z1VLG8BhYjbzRwyQZemwAd6cCR5/XFWLYZRIMpX39AR0tjaGGiGzLVyhse5C9RKC6ai42ppWPKiBagOvaYk8lO7DajerabOZP46Lby5wKjw1HCRx7p9sVMOWGzb/vA1hwiWc6jm3MvQDTogQkiqIhJV0nBQBTU+3okKCFDy9WwferkHjtxib7t3xIUQtHxnIwtx4mpg26/HfwVNVDb4oI9RHmx5WGelRVlrtiw43zboCLaxv46AZeB3IlTkwouebTr1y2NjSpHz68WNFjHvupy3q8TFn3Hos2IAk4Ju5dCo8B3wP7VPr/FGaKiG+T+v+TQqIrOqMTL1VdWV1DdmcbO8KXBz6esmYWYKPwDL5b5FA1a0hwapHiom0r/cKaoqr+27/XcrS5UwSMbQAAAABJRU5ErkJggg==)](https://deepwiki.com/vllm-project/vllm-ascend)

English | 中文

*最新动态* 🔥 - [2026/02] 我们发布了新的官方版本 [v0.13.0](https://github.com/vllm-project/vllm-ascend/releases/tag/v0.13.0)！请遵循[官方指南](https://docs.vllm.ai/projects/ascend/en/v0.13.0/)开始在 Ascend 上使用 vLLM Ascend Plugin。 - [2025/12] 我们发布了新的官方版本 [v0.11.0](https://github.com/vllm-project/vllm-ascend/releases/tag/v0.11.0)！请遵循[官方指南](https://docs.vllm.ai/projects/ascend/en/v0.11.0/)开始在 Ascend 上使用 vLLM Ascend Plugin。 - [2025/09] 我们发布了新的官方版本 [v0.9.1](https://github.com/vllm-project/vllm-ascend/releases/tag/v0.9.1)！请遵循[官方指南](https://docs.vllm.ai/projects/ascend/en/v0.9.1/tutorials/large_scale_ep.html)开始在 Ascend 上部署大规模 Expert Parallelism (EP)。 - [2025/08] 我们与 vLLM 和腾讯共同举办了 [vLLM 北京聚会](https://mp.weixin.qq.com/s/7n8OYNrCC_I9SJaybHA_-Q)！请在此处[查看聚会幻灯片](https://drive.google.com/drive/folders/1Pid6NSFLU43DZRi0EaTcPgXsAzDvbBqF)。 - [2025/06] [用户案例](https://docs.vllm.ai/projects/ascend/en/latest/community/user_stories/index.html)页面已上线！首期展示了 LLaMA-Factory/verl/TRL/GPUStack，演示 vLLM Ascend 如何帮助 Ascend 用户在微调、评估、强化学习 (RL) 和部署场景中提升体验。 - [2025/06] [贡献者](https://docs.vllm.ai/projects/ascend/en/latest/community/contributors.html)页面已上线！所有贡献都值得被记录，感谢所有贡献者。 - [2025/05] 我们发布了首个官方版本 [v0.7.3](https://github.com/vllm-project/vllm-ascend/releases/tag/v0.7.3)！我们与 vLLM 社区合作发布了一篇博客文章，分享我们的实践：[介绍 vLLM 硬件插件：来自 Ascend NPU 的最佳实践](https://blog.vllm.ai/2025/05/12/hardware-plugin.html)。 - [2025/03] 我们与 vLLM 团队共同举办了 [vLLM 北京聚会](https://mp.weixin.qq.com/s/VtxO9WXa5fC-mKqlxNUJUQ)！请在此处[查看聚会幻灯片](https://drive.google.com/drive/folders/1Pid6NSFLU43DZRi0EaTcPgXsAzDvbBqF)。 - [2025/02] vLLM 社区正式创建了 [vllm-project/vllm-ascend](https://github.com/vllm-project/vllm-ascend) 代码仓库，用于在 Ascend NPU 上无缝运行 vLLM。 - [2024/12] 我们正在与 vLLM 社区合作支持 [[RFC]: Hardware pluggable](https://github.com/vllm-project/vllm/issues/11162)。 ## 概述 vLLM Ascend (`vllm-ascend`) 是一个由社区维护的硬件插件，用于在 Ascend NPU 上无缝运行 vLLM。这是在 vLLM 社区中支持 Ascend 后端的推荐方案。它遵循 [[RFC]: Hardware pluggable](https://github.com/vllm-project/vllm/issues/11162) 中概述的原则，提供硬件可插拔接口，将 Ascend NPU 与 vLLM 的集成解耦。通过使用 vLLM Ascend 插件，流行的开源模型，包括 Transformer 类、Mixture-of-Experts (MoE)、Embedding、多模态 LLM，都可以在 Ascend NPU 上无缝运行。 ## 前置条件 - 硬件：Atlas 800I A2 推理系列、Atlas A2 训练系列、Atlas 800I A3 推理系列、Atlas A3 训练系列、Atlas 300I Duo (实验性) - 操作系统：Linux - 软件： - Python >= 3.10, < 3.12 - CANN == 8.5.0 (Ascend HDK 版本参见[此处](https://www.hiascend.com/document/detail/zh/canncommercial/83RC2/releasenote/releasenote_0000.html)) - PyTorch == 2.9.0, torch-npu == 2.9.0 - vLLM (版本与 vllm-ascend 相同) ## 快速入门请使用以下推荐版本快速开始： | 版本 | 发布类型 | 文档 | |------------|--------------|--------------------------------------| | v0.14.0rc1 | 最新候选发布版本 | 详情请参见 [快速入门](https://docs.vllm.ai/projects/ascend/en/latest/quick_start.html) 和 [安装说明](https://docs.vllm.ai/projects/ascend/en/latest/installation.html) | | v0.13.0 | 最新稳定版本 | 详情请参见 [快速入门](https://docs.vllm.ai/projects/ascend/en/v0.13.0/quick_start.html) 和 [安装说明](https://docs.vllm.ai/projects/ascend/en/v0.13.0/installation.html) | ## 贡献详情请参见 [贡献指南](https://docs.vllm.ai/projects/ascend/en/latest/developer_guide/contribution/index.html)，这是一份分步指南，可帮助您设置开发环境、构建和测试。我们欢迎并重视任何贡献与合作： - 如果您遇到 Bug，请通过[提交 Issue](https://github.com/vllm-project/vllm-ascend/issues) 告知我们 - 如有使用问题和帮助需求，请使用 [用户论坛](https://discuss.vllm.ai/c/hardware-support/vllm-ascend-support)。 ## 分支 vllm-ascend 拥有一个主分支和一个开发分支。 - **main**：主分支，对应 vLLM 主分支，并通过 Ascend CI 持续监控质量。 - **releases/vX.Y.Z**：开发分支，随 vLLM 新版本一同创建。例如，`releases/v0.13.0` 是 vLLM `v0.13.0` 版本的开发分支。以下是当前维护的分支： | 分支 | 状态 | 备注 | |------------|--------------|--------------------------------------| | main | 维护中 | vLLM 主分支和 vLLM v0.13.0 标签的 CI 承诺 | | v0.7.1-dev | 不再维护 | 仅允许修复文档 | | v0.7.3-dev | 维护中 | vLLM 0.7.3 版本的 CI 承诺，仅允许修复 Bug，且不再发布新的版本标签。 | | v0.9.1-dev | 维护中 | vLLM 0.9.1 版本的 CI 承诺 | | v0.11.0-dev | 维护中 | vLLM 0.11.0 版本的 CI 承诺 | | releases/v0.13.0 | 维护中 | vLLM 0.13.0 版本的 CI 承诺 | | rfc/feature-name | 维护中 | 用于协作的[功能分支](https://docs.vllm.ai/projects/ascend/en/latest/community/versioning_policy.html#feature-branches) | 详情请参见[版本策略](https://docs.vllm.ai/projects/ascend/en/latest/community/versioning_policy.html)。 ## 每周会议 - vLLM Ascend 每周会议： - 周三，15:00 - 16:00 (UTC+8, [转换为您所在的时区](https://dateful.com/convert/gmt8?t=15)) ## 许可证 Apache License 2.0，详见 [LICENSE](./LICENSE) 文件。

标签：Ascend, DNS解析, LLM, NPU, PyTorch, Unmanaged PE, vLLM, vLLM-Ascend, 人工智能, 凭据扫描, 华为昇腾, 大模型推理, 开源项目, 异构计算, 推理加速, 模型部署, 深度学习, 用户模式Hook绕过, 硬件插件, 逆向工具, 高性能计算