sgl-project/sglang-omni

GitHub: sgl-project/sglang-omni

SGLang-Omni 是一个高性能多阶段 pipeline 服务框架，用于以低延迟编排和部署全模态与多模态模型。

Stars: 716 | Forks: 295

[![DeepWiki](https://deepwiki.com/badge.svg)](https://deepwiki.com/sgl-project/sglang-omni)

## 关于 SGLang-Omni 是一个用于 omni 和多模态模型的高性能服务框架，基于 [SGLang](https://github.com/sgl-project/sglang) 构建。它旨在以低延迟和兼容 OpenAI 的 API 来编排多阶段 pipeline。现代 omni 模型 —— 例如语音输出 LLM 和多模态生成系统 —— 可以分解为具有完全不同计算特征的异构阶段：计算密集型的思考器、内存密集型的对话器以及延迟敏感的编解码器。SGLang-Omni 围绕**以计算为中心的设计**构建：每个阶段都运行自己的独立调度器，并针对其瓶颈进行调优；它们通过共享的 inbox/outbox 抽象进行通信，并通过零拷贝共享内存传输 tensor。这能防止单一阶段降低其他阶段的性能，并允许新模型通过声明 pipeline 拓扑结构接入框架，而无需从零开始构建推理系统。核心功能： - **多阶段 Pipeline**：灵活的框架，用于跨进程和 GPU 编排预处理、AR 引擎、编解码器和声码器阶段。 - **原生 SGLang 集成**：利用 SGLang 的 RadixAttention、连续批处理和 CUDA Graph 优化作为 AR 主干。 - **兼容 OpenAI 的服务器**：即插即用的 `/v1/audio/speech` 和 `/v1/chat/completions` endpoint，并支持实时流式传输。 - **广泛的模型支持**：支持不断增长的 TTS 和 omni 模型集，包括 Higgs Audio、Fish Audio S2-Pro、Voxtral TTS、Qwen3 TTS、MOSS-TTS、Qwen3-Omni、Ming-Omni 和 LLaDA2.0-Uni。 ## 支持的模型 | 模型 | 类型 | 备注 | |-------|------|-------| | [bosonai/higgs-audio-v3-tts-4b](https://huggingface.co/bosonai/higgs-audio-v3-tts-4b) | TTS | 语音克隆、流式传输、102 种语言 | | [fishaudio/s2-pro](https://huggingface.co/fishaudio/s2-pro) | TTS | 语音克隆、流式传输 | | [mistralai/Voxtral-4B-TTS-2603](https://huggingface.co/mistralai/Voxtral-4B-TTS-2603) | TTS | 指定语音、流式传输、9 种语言 | | [Qwen/Qwen3-TTS-12Hz-Base](https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-Base) | TTS | 语音克隆、流式传输、10 种语言、0.6B / 1.7B | | [OpenMOSS-Team/MOSS-TTS-v1.5](https://huggingface.co/OpenMOSS-Team/MOSS-TTS-v1.5) | TTS | 语音克隆、流式传输、31 种语言 | | [Qwen/Qwen3-Omni-30B-A3B-Instruct](https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct) | Omni | 文本、图像、音频、视频 → 文本 + 音频 | | [inclusionAI/Ming-flash-omni-2.0](https://huggingface.co/inclusionAI/Ming-flash-omni-2.0) | Omni | 流式 TTS | | [inclusionAI/LLaDA2.0-Uni](https://huggingface.co/inclusionAI/LLaDA2.0-Uni) | Multimodal | 文本 + 图像理解与生成 | ## 快速开始 - [安装](./docs/get_started/installation.md) - [实战指南](./docs/cookbook/) - [开发者参考](./docs/developer_reference/main.md)

标签：DLL 劫持, Vectored Exception Handling, 人工智能, 多模态模型, 大语言模型, 服务架构, 模型推理框架, 用户模式Hook绕过, 语音合成(TTS), 逆向工具, 高性能计算