vllm-project/vllm-omni

GitHub: vllm-project/vllm-omni

一个高效的全模态模型推理和服务框架,在 vLLM 基础上扩展支持图像、视频、音频等多模态输入输出及 Diffusion 等非自回归架构。

Stars: 3310 | Forks: 569

vllm-omni

Easy, fast, and cheap omni-modality model serving for everyone

| 文档 | 用户论坛 | 开发者 Slack | 微信 | 论文 | 幻灯片 |

*最新动态* 🔥 - [2026/03] 查看我们在 vLLM 香港聚会上的首次公开[项目深入解析](https://youtu.be/sgwNfsNnR9I)! - [2026/03] **[vllm-omni-skills](https://github.com/hsliuustc0106/vllm-omni-skills)** 是一个社区驱动的 AI 助手技能集合,旨在帮助开发者更高效地使用 vLLM-Omni。这些技能可用于 **Cursor IDE**、**Claude**、**Codex** 等流行的智能体 AI 编程助手。 - [2026/02] 我们发布了 [0.16.0](https://github.com/vllm-project/vllm-omni/releases/tag/v0.16.0) —— 这是一个重大的对齐与能力更新版本,基于 **upstream vLLM v0.16.0** 进行了变基,并显著扩展了 **Qwen3-Omni / Qwen3-TTS**、**Bagel**、**MiMo-Audio**、**GLM-Image** 和 **Diffusion (DiT) 图像/视频技术栈**的性能、分布式执行和生产就绪性——同时还改进了平台覆盖范围 (CUDA / ROCm / NPU / XPU)、CI 质量和文档。 - [2026/02] 我们发布了 [0.14.0](https://github.com/vllm-project/vllm-omni/releases/tag/v0.14.0) —— 这是 vLLM-Omni 的首个**稳定版本**,扩展了 Omni 的扩散 / 图像-视频生成和音频 / TTS 技术栈,改进了分布式执行和内存效率,并拓宽了平台/后端覆盖范围 (GPU/ROCm/NPU/XPU)。它还对服务 API、性能分析与基准测试以及整体稳定性带来了实质性升级。请查看我们最新的[论文](https://arxiv.org/abs/2602.02204)以了解架构设计和性能结果。 - [2026/01] 我们发布了 [0.12.0rc1](https://github.com/vllm-project/vllm-omni/releases/tag/v0.12.0rc1) —— 一个主要的 RC 里程碑,专注于完善 Diffusion 技术栈、加强 OpenAI 兼容的服务、扩展全才模型覆盖范围,并提升跨平台 (GPU/NPU/ROCm) 的稳定性。 - [2025/11] vLLM 社区正式发布了 [vllm-project/vllm-omni](https://github.com/vllm-project/vllm-omni),旨在支持全才模型服务。 ## 关于 [vLLM](https://github.com/vllm-project/vllm) 最初旨在支持基于文本的自回归生成任务的大型语言模型。vLLM-Omni 是一个框架,扩展了其对全才模型推理和服务的支持: - **全才模型**:文本、图像、视频和音频数据处理 - **非自回归架构**:将 vLLM 的 AR 支持扩展到 Diffusion Transformers (DiT) 和其他并行生成模型 - **异构输出**:从传统的文本生成到多模态输出

vllm-omni

vLLM-Omni 速度极快,具备: - 利用 vLLM 高效的 KV cache 管理提供的最先进的 AR 支持 - 用于高吞吐量性能的流水线阶段执行重叠 - 基于 OmniConnector 的完全拆分和跨阶段动态资源分配 vLLM-Omni 灵活且易于使用,具备: - 用于管理复杂模型工作流的异构流水线抽象 - 与流行的 Hugging Face 模型无缝集成 - 用于分布式推理的 Tensor、Pipeline、Data 和 Expert 并行支持 - 流式输出 - OpenAI 兼容的 API 服务器 vLLM-Omni 无缝支持 HuggingFace 上大多数流行的开源模型,包括: - 全才模型(例如 Qwen-Omni) - 多模态生成模型(例如 Qwen-Image) ## 快速入门 访问我们的[文档](https://vllm-omni.readthedocs.io/en/latest/)了解更多。 - [安装说明](https://vllm-omni.readthedocs.io/en/latest/getting_started/installation/) - [快速开始](https://vllm-omni.readthedocs.io/en/latest/getting_started/quickstart/) - [支持的模型列表](https://vllm-omni.readthedocs.io/en/latest/models/supported_models/) ## 引用 如果您在研究中使用 vLLM-Omni,请引用我们的[论文](https://arxiv.org/abs/2602.02204): ``` @article{yin2026vllmomni, title={vLLM-Omni: Fully Disaggregated Serving for Any-to-Any Multimodal Models}, author={Peiqi Yin, Jiangyun Zhu, Han Gao, Chenguang Zheng, Yongxiang Huang, Taichang Zhou, Ruirui Yang, Weizhi Liu, Weiqing Chen, Canlin Guo, Didan Deng, Zifeng Mo, Cong Wang, James Cheng, Roger Wang, Hongsheng Liu}, journal={arXiv preprint arXiv:2602.02204}, year={2026} } ``` ## Star 历史 [![Star 历史图表](https://api.star-history.com/svg?repos=vllm-project/vllm-omni&type=date&legend=top-left)](https://www.star-history.com/#vllm-project/vllm-omni&type=date&legend=top-left) ## 许可证 Apache License 2.0,详见 [LICENSE](./LICENSE) 文件。
标签:AI推理加速, CUDA, Diffusion Transformer, DiT, LLM推理引擎, Omni-modality, Petitpotam, Qwen3-Omni, ROCm, Spyse API, Vectored Exception Handling, vLLM, 全模态模型, 凭据扫描, 分布式执行, 多模态大模型, 大模型服务, 模型推理框架, 模型服务化, 深度学习部署, 视频生成, 语音合成TTS, 逆向工具, 高性能推理