microsoft/VibeVoice

GitHub: microsoft/VibeVoice

微软开源的前沿语音 AI 框架，支持超长音频识别与实时语音合成，具备说话人分离、热词定制等高级能力。

Stars: 49701 | Forks: 5547

## 🎙️ VibeVoice: 开源前沿语音 AI [![项目主页](https://img.shields.io/badge/Project-Page-blue?logo=githubpages)](https://microsoft.github.io/VibeVoice) [![Hugging Face](https://img.shields.io/badge/HuggingFace-Collection-orange?logo=huggingface)](https://huggingface.co/collections/microsoft/vibevoice-68a2ef24a875c44be47b034f) [![TTS 报告](https://img.shields.io/badge/TTS-Report-red?logo=arxiv)](https://arxiv.org/pdf/2508.19205) [![ASR 报告](https://img.shields.io/badge/ASR-Report-yellow?logo=arxiv)](https://arxiv.org/pdf/2601.18184) [![Colab](https://img.shields.io/badge/StreamingTTS-Colab-green?logo=googlecolab)](https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/VibeVoice_colab.ipynb) [![ASR Playground](https://img.shields.io/badge/ASR-Playground-6F42C1?logo=gradio)](https://aka.ms/vibevoice-asr) [![microsoft%2FVibeVoice | Trendshift](https://trendshift.io/api/badge/repositories/15465)](https://trendshift.io/repositories/15465)

📰 新闻

2026-03-29: 🎉 VibeVoice-ASR 正被开源社区采用！Vibing，一款语音驱动的输入法，现基于 VibeVoice-ASR 构建。下载：[macOS](https://github.com/VibingJustSpeakIt/Vibing/releases/download/v0.1.0/Vibing-v0.1.0-mac.dmg) | [Windows](https://github.com/VibingJustSpeakIt/Vibing/releases/download/v0.1.0/Vibing-v0.1.0-windows.exe) https://github.com/user-attachments/assets/db0bb23f-ae06-4135-a66a-1ff1669f4f84 2026-03-06: 🚀 VibeVoice ASR 现已加入 Transformers 发布版本！您现在可以直接通过 Hugging Face Transformers 库使用我们的语音识别模型，无缝集成到您的项目中。 2026-01-21: 📣 我们开源了 VibeVoice-ASR，这是一个统一的语音转文本模型，旨在单次处理中处理长达 60 分钟的长音频，生成包含谁（说话人）、何时（时间戳）和什么（内容）的结构化转录，并支持用户自定义上下文。在 [Playground](https://aka.ms/vibevoice-asr) 中试用。 - ⭐️ VibeVoice-ASR 原生支持多语言，支持超过 50 种语言 —— 详情请查看[支持的语言](docs/vibevoice-asr.md#language-distribution)。 - 🔥 VibeVoice-ASR [微调代码](finetuning-asr/README.md)现已可用！ - ⚡️ 现支持 **vLLM 推理** 以实现更快的推理速度；详情请参见 [vllm-asr](docs/vibevoice-vllm-asr.md)。 - 📑 [VibeVoice-ASR 技术报告](https://arxiv.org/pdf/2601.18184)已发布。 2025-12-16: 📣 我们为 VibeVoice‑Realtime‑0.5B 添加了实验性说话人以供探索，包括九种语言的多语言语音（DE, FR, IT, JP, KR, NL, PL, PT, ES）和 11 种独特的英语风格语音。[立即试用](docs/vibevoice-realtime-0.5b.md#optional-more-experimental-voices)。未来将添加更多说话人类型。 2025-12-03: 📣 我们开源了 VibeVoice‑Realtime‑0.5B，这是一个实时文本转语音模型，支持流式文本输入和稳健的长语音生成。在 [Colab](https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb) 上试用。 2025-09-05: VibeVoice 是一个开源研究框架，旨在促进语音合成社区的合作。发布后，我们发现该工具被以不符合既定意图的方式使用的实例。由于负责任地使用 AI 是 Microsoft 的指导原则之一，我们已从此仓库中移除了 VibeVoice-TTS 代码。 2025-08-25: 📣 我们开源了 VibeVoice-TTS，这是一个长篇幅多说话人文本转语音模型，可以合成长达 90 分钟的语音，并支持最多 4 个不同的说话人。

## 概述 VibeVoice 是一个**开源前沿语音 AI 模型家族**，包括文本转语音 (TTS) 和自动语音识别 (ASR) 模型。 VibeVoice 的一个核心创新是使用了在 **7.5 Hz** 超低帧率下运行的连续语音 tokenizer（声学和语义）。这些 tokenizer 在显著提高处理长序列的计算效率的同时，有效地保留了音频保真度。VibeVoice 采用了 [next-token diffusion](https://arxiv.org/abs/2412.08635) 框架，利用大型语言模型 (LLM) 来理解文本上下文和对话流程，并使用 diffusion head 生成高保真声学细节。欲了解更多信息、演示和示例，请访问我们的[项目主页](https://microsoft.github.io/VibeVoice)。

| 模型 | 权重 | 快速体验 | |-------|--------------|---------| | VibeVoice-ASR-7B | [HF 链接](https://huggingface.co/microsoft/VibeVoice-ASR) | [Playground](https://aka.ms/vibevoice-asr) | | VibeVoice-TTS-1.5B | [HF 链接](https://huggingface.co/microsoft/VibeVoice-1.5B) | 已禁用 | | VibeVoice-Realtime-0.5B | [HF 链接](https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B) | [Colab](https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb) |

## 模型 ### 1. 📖 [VibeVoice-ASR](docs/vibevoice-asr.md) - 长语音识别 **VibeVoice-ASR** 是一个统一的语音转文本模型，旨在单次处理中处理 **60 分钟的长音频**，生成包含**谁（说话人）、何时（时间戳）和什么（内容）**的结构化转录，并支持**自定义热词**。 - **🕒 60 分钟单次处理**：与将音频切片成短块（通常会丢失全局上下文）的传统 ASR 模型不同，VibeVoice ASR 可在 64K token 长度内接受长达 **60 分钟**的连续音频输入。这确保了在整个小时内一致的说话人跟踪和语义连贯性。 - **👤 自定义热词**：用户可以提供自定义热词（例如，特定名称、技术术语或背景信息）来指导识别过程，从而显著提高特定领域内容的准确性。 - **📝 丰富转录（谁，何时，什么）**：该模型联合执行 ASR、说话人日志分割和时间戳标记，生成结构化输出，指明*谁*在*何时*说了*什么*。 [📖 文档](docs/vibevoice-asr.md) | [🤗 Hugging Face](https://huggingface.co/microsoft/VibeVoice-ASR) | [🎮 Playground](https://aka.ms/vibevoice-asr) | [🛠️ 微调](finetuning-asr/README.md) | [📊 论文](docs/VibeVoice-ASR-Report.pdf)

DER
cpWER
tcpWER

https://github.com/user-attachments/assets/acde5602-dc17-4314-9e3b-c630bc84aefa

### 2. 🎙️ [VibeVoice-TTS](docs/vibevoice-tts.md) - 长篇幅多说话人 TTS **最适用于**：长篇对话音频、播客、多说话人对话 - **⏱️ 90 分钟长篇幅生成**：单次生成长达 **90 分钟**的对话/单人语音，始终保持说话人的一致性和语义连贯性。 - **👥 多说话人支持**：在单次对话中支持最多 **4 个不同的说话人**，在长对话中实现自然的轮流发言和说话人一致性。 - **🎭 表现力丰富的语音**：生成富有表现力、听起来自然的语音，捕捉对话动态和情感细微差别。 - **🌐 多语言支持**：支持英语、中文和其他语言。 [📖 文档](docs/vibevoice-tts.md) | [🤗 Hugging Face](https://huggingface.co/microsoft/VibeVoice-1.5B) | [📊 论文](https://arxiv.org/pdf/2508.19205)

**英语**

https://github.com/user-attachments/assets/0967027c-141e-4909-bec8-091558b1b784

**中文**

https://github.com/user-attachments/assets/322280b7-3093-4c67-86e3-10be4746c88f

**跨语言**

https://github.com/user-attachments/assets/838d8ad9-a201-4dde-bb45-8cd3f59ce722

**自发歌唱**

https://github.com/user-attachments/assets/6f27a8a5-0c60-4f57-87f3-7dea2e11c730

**4 人长对话**

https://github.com/user-attachments/assets/a357c4b6-9768-495c-a576-1618f6275727

### 3. ⚡ [VibeVoice-Streaming](docs/vibevoice-realtime-0.5b.md) - 实时流式 TTS VibeVoice-Realtime 是一个**轻量级实时**文本转语音模型，支持**流式文本输入**和**稳健的长语音生成**。 - 参数量：0.5B（易于部署） - 实时 TTS（~300 毫秒首次可听延迟） - 流式文本输入 - 稳健的长语音生成（~10 分钟） [📖 文档](docs/vibevoice-realtime-0.5b.md) | [🤗 Hugging Face](https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B) | [🚀 Colab](https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb)

https://github.com/user-attachments/assets/0901d274-f6ae-46ef-a0fd-3c4fba4f76dc

## 贡献请参阅 [CONTRIBUTING.md](CONTRIBUTING.md) 获取详细的贡献指南。 ## ⚠️ 风险与限制尽管已通过各种技术努力对其进行优化，但它仍可能产生意外、有偏见或不准确的输出。VibeVoice 继承了其基础模型（具体而言，即本次发布中的 Qwen2.5 1.5b）产生的任何偏见、错误或遗漏。深度伪造和虚假信息的潜在风险：高质量的合成语音可能被滥用于创建令人信服的虚假音频内容，用于冒充、欺诈或传播虚假信息。用户必须确保转录内容可靠，检查内容准确性，并避免以误导方式使用生成的内容。用户应以合法方式使用生成的内容并部署模型，完全遵守相关司法管辖区内的所有适用法律法规。在分享 AI 生成的内容时，披露 AI 的使用是最佳做法。不建议在未经进一步测试和开发的情况下将 VibeVoice 用于商业或实际应用。此模型仅用于研究和开发目的。请负责任地使用。 ## Star 历史 ![Star History Chart](https://api.star-history.com/svg?repos=Microsoft/vibevoice&type=date&legend=top-left)

标签：AI, ASR, C2, DLL 劫持, Gradio, Hugging Face, IPv6支持, LLM, Microsoft, NLP, TTS, Unmanaged PE, VibeVoice, 人工智能, 人机交互, 凭据扫描, 多模态, 大语言模型, 开源, 微软, 流式语音合成, 深度学习, 用户模式Hook绕过, 自动化代码审查, 语音交互, 语音合成, 语音识别, 输入法, 逆向工具