OpenBMB/VoxCPM

GitHub: OpenBMB/VoxCPM

VoxCPM2 是一个基于免分词器扩散自回归架构的多语种 TTS 系统，支持通过自然语言描述进行创意声音设计、高保真声音克隆及 48kHz 录音室级音频生成。

Stars: 33783 | Forks: 3861

VoxCPM2：免分词器的多语种语音生成、创意声音设计与高保真克隆 TTS

English | 中文

👋 Join our community for discussion and support!
Feishu | Discord

VoxCPM 是一个 **免分词器** 的 Text-to-Speech 系统，通过端到端 **扩散自回归架构** 直接生成连续语音表示，绕过离散分词步骤，从而实现高度自然且富有表现力的合成。 **VoxCPM2** 是最新的主要版本 —— 一个在 **超过 200 万小时** 多语种语音数据上训练的 **2B** 参数模型，现已支持 **30 种语言**、**声音设计**、**可控声音克隆** 以及 **48kHz** 录音室级音频输出。基于 [MiniCPM-4](https://github.com/OpenBMB/MiniCPM) 骨干构建。 ### ✨ 亮点 - 🌍 **支持 30 种语言** — 输入任意 30 种支持语言的文本，无需语言标签即可直接合成 - 🎨 **声音设计** — 仅凭自然语言描述即可创造全新的声音（性别、年龄、语调、情感、语速等），无需参考音频 - 🎛️ **可控克隆** — 从简短参考片段克隆任意声音，并支持通过风格指引调整情感、语速与表现力，同时保留原始音色 - 🎙️ **极致克隆** — 重现每一个声音细节：同时提供参考音频及其转录文本，模型将无缝延续参考片段，忠实地保留所有声音细节 —— 音色、节奏、情感与风格（与 VoxCPM1.5 相同） - 🔊 **48kHz 高品质音频** — 接受 16kHz 参考音频，通过 AudioVAE V2 的非对称编码/解码设计直接输出 48kHz 录音室级音频，内置超分辨率 —— 无需外部上采样器 - 🧠 **上下文感知合成** — 自动从文本内容中推断合适的韵律与表现力 - ⚡ **实时流式** — 在 NVIDIA RTX 4090 上 RTF 可低至 ~0.3，经 [Nano-VLLM](https://github.com/a710128/nanovllm-voxcpm) 加速后可达 ~0.13 - 📜 **完全开源 & 商用就绪** — 权重与代码依据 [Apache-2.0](LICENSE) 许可发布，可免费商用

🌍 支持的语言（30 种）

Arabic, Burmese, Chinese, Danish, Dutch, English, Finnish, French, German, Greek, Hebrew, Hindi, Indonesian, Italian, Japanese, Khmer, Korean, Lao, Malay, Norwegian, Polish, Portuguese, Russian, Spanish, Swahili, Swedish, Tagalog, Thai, Turkish, Vietnamese 中文方言：四川话, 粤语, 吴语, 东北话, 河南话, 陕西话, 山东话, 天津话, 闽南话 ### 新闻动态 * **[2026.04]** 🔥 我们发布了 **VoxCPM2** —— 2B 参数、30 种语言、声音设计与可控声音克隆、48kHz 音频输出！[权重](https://huggingface.co/openbmb/VoxCPM2) | [文档](https://voxcpm.readthedocs.io/en/latest/) | [Playground](https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo) * **[2025.12]** 🎉 开源 **VoxCPM1.5** [权重](https://huggingface.co/openbmb/VoxCPM1.5)，支持 SFT & LoRA 微调。（**🏆 #1 GitHub Trending**） * **[2025.09]** 🔥 发布 VoxCPM [技术报告](https://arxiv.org/abs/2509.24650)。 * **[2025.09]** 🎉 开源 **VoxCPM-0.5B** [权重](https://huggingface.co/openbmb/VoxCPM-0.5B)（**🏆 #1 HuggingFace Trending**） ## 目录 - [快速开始](#-quick-start) - [安装](#installation) - [Python API](#python-api) - [CLI 使用](#cli-usage) - [Web 演示](#web-demo) - [生产部署](#-production-deployment-nano-vllm) - [模型与版本](#-models--versions) - [性能](#-performance) - [微调](#%EF%B8%8F-fine-tuning) - [文档](#-documentation) - [生态与社区](#-ecosystem--community) - [风险与限制](#%EF%B8%8F-risks-and-limitations) - [引用](#-citation) ## 🚀 快速开始 ### 安装 ``` pip install voxcpm ``` ### Python API #### 🗣️ Text-to-Speech ``` from voxcpm import VoxCPM import soundfile as sf model = VoxCPM.from_pretrained( "openbmb/VoxCPM2", load_denoiser=False, ) wav = model.generate( text="VoxCPM2 is the current recommended release for realistic multilingual speech synthesis.", cfg_value=2.0, inference_timesteps=10, ) sf.write("demo.wav", wav, model.tts_model.sample_rate) print("saved: demo.wav") ``` 如果您更倾向于先从 ModelScope 下载，可以使用： ``` pip install modelscope ``` ``` from modelscope import snapshot_download snapshot_download("OpenBMB/VoxCPM2", local_dir='./pretrained_models/VoxCPM2') # specify the local directory to save the model from voxcpm import VoxCPM import soundfile as sf model = VoxCPM.from_pretrained("./pretrained_models/VoxCPM2", load_denoiser=False) wav = model.generate( text="VoxCPM2 is the current recommended release for realistic multilingual speech synthesis.", cfg_value=2.0, inference_timesteps=10, ) sf.write("demo.wav", wav, model.tts_model.sample_rate) ``` #### 🎨 声音设计通过自然语言描述创造声音 —— 无需参考音频。**格式**：将描述放在 `text` 的开头括号内（例如 `"(your voice description)The text to synthesize."`）： ``` wav = model.generate( text="(A young woman, gentle and sweet voice)Hello, welcome to VoxCPM2!", cfg_value=2.0, inference_timesteps=10, ) sf.write("voice_design.wav", wav, model.tts_model.sample_rate) ``` #### 🎛️ 可控声音克隆上传一段参考音频。模型将克隆音色，您仍可使用控制指令调整语速、情感或风格。 ``` wav = model.generate( text="This is a cloned voice generated by VoxCPM2.", reference_wav_path="path/to/voice.wav", ) sf.write("clone.wav", wav, model.tts_model.sample_rate) wav = model.generate( text="(slightly faster, cheerful tone)This is a cloned voice with style control.", reference_wav_path="path/to/voice.wav", cfg_value=2.0, inference_timesteps=10, ) sf.write("controllable_clone.wav", wav, model.tts_model.sample_rate) ``` #### 🎙️ 极致克隆同时提供参考音频及其准确转录文本，进行基于音频延续的克隆，重现每一个声音细节。为最大化克隆相似度，请将同一段参考片段同时传入 `reference_wav_path` 和 `prompt_wav_path`，如下所示： ``` wav = model.generate( text="This is an ultimate cloning demonstration using VoxCPM2.", prompt_wav_path="path/to/voice.wav", prompt_text="The transcript of the reference audio.", reference_wav_path="path/to/voice.wav", # optional, for better simliarity ) sf.write("hifi_clone.wav", wav, model.tts_model.sample_rate) ```

🔄 流式 API

``` import numpy as np chunks = [] for chunk in model.generate_streaming( text="Streaming text to speech is easy with VoxCPM!", ): chunks.append(chunk) wav = np.concatenate(chunks) sf.write("streaming.wav", wav, model.tts_model.sample_rate) ```

### CLI 使用 ``` # Voice design (no reference audio needed) voxcpm design \ --text "VoxCPM2 brings studio-quality multilingual speech synthesis." \ --output out.wav # Controllable voice cloning with style control voxcpm design \ --text "VoxCPM2 brings studio-quality multilingual speech synthesis." \ --control "Young female voice, warm and gentle, slightly smiling" \ --output out.wav # Voice cloning (reference audio) voxcpm clone \ --text "This is a voice cloning demo." \ --reference-audio path/to/voice.wav \ --output out.wav # Ultimate cloning (prompt audio + transcript) voxcpm clone \ --text "This is a voice cloning demo." \ --prompt-audio path/to/voice.wav \ --prompt-text "reference transcript" \ --reference-audio path/to/voice.wav \ # optional, for better simliarity --output out.wav # Batch processing voxcpm batch --input examples/input.txt --output-dir outs # Help voxcpm --help ``` ### Web 演示 ``` python app.py --port 8808 # then open in browser: http://localhost:8808 ``` ### 🚢 生产部署（Nano-vLLM）为高吞吐量服务，请使用 [**Nano-vLLM-VoxCPM**](https://github.com/a710128/nanovllm-voxcpm) —— 基于 Nano-vLLM 构建的专用推理引擎，支持并发请求与异步 API。 ``` pip install nano-vllm-voxcpm ``` ``` from nanovllm_voxcpm import VoxCPM import numpy as np, soundfile as sf server = VoxCPM.from_pretrained(model="/path/to/VoxCPM", devices=[0]) chunks = list(server.generate(target_text="Hello from VoxCPM!")) sf.write("out.wav", np.concatenate(chunks), 48000) server.stop() ``` ## 📦 模型与版本 | | **VoxCPM2** | **VoxCPM1.5** | **VoxCPM-0.5B** | |---|:---:|:---:|:---:| | **状态** | 🟢 最新 | 稳定版 | 旧版 | | **骨干参数** | 2B | 0.6B | 0.5B | | **音频采样率** | 48kHz | 44.1kHz | 16kHz | | **LM Token 率** | 6.25Hz | 6.25Hz | 12.5Hz | | **语言** | 30 | 2 (zh, en) | 2 (zh, en) | | **克隆模式** | 独立参考 & 延续 | 仅延续 | 仅延续 | | **声音设计** | ✅ | — | — | | **可控声音克隆** | ✅ | — | — | | **SFT / LoRA** | ✅ | ✅ | ✅ | | **RTF (RTX 4090)** | ~0.30 | ~0.15 | ~0.17 | | **RTF in Nano-VLLM (RTX 4090)** | ~0.13 | ~0.08 | ~0.10 | | **VRAM** | ~8 GB | ~6 GB | ~5 GB | | **权重** | [🤗 HF](https://huggingface.co/openbmb/VoxCPM2) / [MS](https://modelscope.cn/models/OpenBMB/VoxCPM2) | [🤗 HF](https://huggingface.co/openbmb/VoxCPM1.5) / [MS](https://modelscope.cn/models/OpenBMB/VoxCPM1.5) | [🤗 HF](https://huggingface.co/openbmb/VoxCPM-0.5B) / [MS](https://modelscope.cn/models/OpenBMB/VoxCPM-0.5B) | | **技术报告** | 即将发布 | — | [arXiv](https://arxiv.org/abs/2509.24650) [ICLR 2026](https://openreview.net/forum?id=h5KLpGoqzC) | | **Demo 页面** | [Audio Samples](https://openbmb.github.io/voxcpm2-demopage) | — | [Audio Samples](https://openbmb.github.io/VoxCPM-demopage) | VoxCPM2 基于一个 **免分词器、扩散自回归** 范式构建。模型完全在 **AudioVAE V2** 的潜空间中运行，遵循四阶段流水线：**LocEnc → TSLM → RALM → LocDiT**，实现了丰富的表现力与 48kHz 原生音频输出。

## 📊 性能 VoxCPM2 在公开的 zero-shot 与可控 TTS 基准测试中取得了 SOTA 或相当的结果。 ### Seed-TTS-eval

Seed-TTS-eval WER(⬇)&SIM(⬆) 结果（点击展开）

| Model | Parameters | Open-Source | test-EN | | test-ZH | | test-Hard | | |------|------|------|:------------:|:--:|:------------:|:--:|:-------------:|:--:| | | | | WER/%⬇ | SIM/%⬆| CER/%⬇| SIM/%⬆ | CER/%⬇ | SIM/%⬆ | | MegaTTS3 | 0.5B | ❌ | 2.79 | 77.1 | 1.52 | 79.0 | - | - | | DiTAR | 0.6B | ❌ | 1.69 | 73.5 | 1.02 | 75.3 | - | - | | CosyVoice3 | 0.5B | ❌ | 2.02 | 71.8 | 1.16 | 78.0 | 6.08 | 75.8 | | CosyVoice3 | 1.5B | ❌ | 2.22 | 72.0 | 1.12 | 78.1 | 5.83 | 75.8 | | Seed-TTS | - | ❌ | 2.25 | 76.2 | 1.12 | 79.6 | 7.59 | 77.6 | | MiniMax-Speech | - | ❌ | 1.65 | 69.2 | 0.83 | 78.3 | - | - | | F5-TTS | 0.3B | ✅ | 2.00 | 67.0 | 1.53 | 76.0 | 8.67 | 71.3 | | MaskGCT | 1B | ✅ | 2.62 | 71.7 | 2.27 | 77.4 | - | - | | CosyVoice | 0.3B | ✅ | 4.29 | 60.9 | 3.63 | 72.3 | 11.75 | 70.9 | | CosyVoice2 | 0.5B | ✅ | 3.09 | 65.9 | 1.38 | 75.7 | 6.83 | 72.4 | | SparkTTS | 0.5B | ✅ | 3.14 | 57.3 | 1.54 | 66.0 | - | - | | FireRedTTS | 0.5B | ✅ | 3.82 | 46.0 | 1.51 | 63.5 | 17.45 | 62.1 | | FireRedTTS-2 | 1.5B | ✅ | 1.95 | 66.5 | 1.14 | 73.6 | - | - | | Qwen2.5-Omni | 7B | ✅ | 2.72 | 63.2 | 1.70 | 75.2 | 7.97 | 74.7 | | Qwen3-Omni | 30B-A3B | ✅ | 1.39 | - | 1.07 | - | - | - | | OpenAudio-s1-mini | 0.5B | ✅ | 1.94 | 55.0 | 1.18 | 68.5 | 23.37 | 64.3 | | IndexTTS2 | 1.5B | ✅ | 2.23 | 70.6 | 1.03 | 76.5 | 7.12 | 75.5 | | VibeVoice | 1.5B | ✅ | 3.04 | 68.9 | 1.16 | 74.4 | - | - | | HiggsAudio-v2 | 3B | ✅ | 2.44 | 67.7 | 1.50 | 74.0 | 55.07 | 65.6 | | VoxCPM-0.5B | 0.6B | ✅ | 1.85 | 72.9 | 0.93 | 77.2 | 8.87 | 73.0 | | VoxCPM1.5 | 0.8B | ✅ | 2.12 | 71. | 1.18 | 77.0 | 7.74 | 73.1 | | MOSS-TTS | | ✅ | 1.85 | 73.4 | 1.20 | 78.8 | - | - | | Qwen3-TTS | 1.7B | ✅ | 1.23 | 71.7 | 1.22 | 77.0 | 6.76 | 74.8 | | FishAudio S2 | 4B | ✅ | 0.99 | - | 0.54 | - | 5.99 | - | | LongCat-Audio-DiT | 3.5B | ✅ | 1.50 | 78.6 | 1.09 | 81.8 | 6.04 | 79.7 | | **VoxCPM2** | 2B | ✅ | 1.84 | 75.3 | 0.97| 79.5| 8.13 | 75.3 |

### CV3-eval

CV3-eval 多语种 WER/CER(⬇) 结果（点击展开）

| Model | zh | en | hard-zh | hard-en | ja | ko | de | es | fr | it | ru | |-------|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:| | CosyVoice2 | 4.08 | 6.32 | 12.58| 11.96| 9.13 | 19.7 |- | - | - | - | - | | CosyVoice3-1.5B | 3.91 | 4.99 | 9.77 | 10.55 | 7.57 | 5.69 | 6.43 | 4.47 | 11.8 | 10.5 | 6.64 | | Fish Audio S2 | 2.65 | 2.43 | 9.10 | 4.40 | 3.96 | 2.76 | 2.22 | 2.00 | 6.26 | 2.04 | 2.78 | | **VoxCPM2** | 3.65 | 5.00 | 8.55 | 8.48 | 5.96 | 5.69 | 4.77 | 3.80 | 9.85 | 4.25 | 5.21 |

### MiniMax-Multilingual-Test

Minimax-MLS-test WER(⬇) 结果（点击展开）

| Language | Minimax | ElevenLabs | Qwen3-TTS | FishAudio S2 | **VoxCPM2** | |----------|:-------:|:----------:|:--------------------:|:------------:|:-----------:| | Arabic | **1.665** | 1.666 | – | 3.500 | 13.046 | | Cantonese | 34.111 | 51.513 | – | **30.670** | 38.584 | | Chinese | 2.252 | 16.026 | 0.928 | **0.730** | 1.136 | | Czech | 3.875 | **2.108** | – | 2.840 | 24.132 | | Dutch | 1.143 | **0.803** | – | 0.990 | 0.913 | | English | 2.164 | 2.339 | **0.934** | 1.620 | 2.289 | | Finnish | 4.666 | 2.964 | – | 3.330 | **2.632** | | French | 4.099 | 5.216 | **2.858** | 3.050 | 4.534 | | German | 1.906 | 0.572 | 1.235 | **0.550** | 0.679 | | Greek | 2.016 | **0.991** | – | 5.740 | 2.844 | | Hindi | 6.962 | **5.827** | – | 14.640 | 19.699 | | Indonesian | 1.237 | **1.059** | – | 1.460 | 1.084 | | Italian | 1.543 | 1.743 | **0.948** | 1.270 | 1.563 | | Japanese | 3.519 | 10.646 | 3.823 | **2.760** | 4.628 | | Korean | 1.747 | 1.865 | 1.755 | **1.180** | 1.962 | | Polish | 1.415 | **0.766** | – | 1.260 | 1.141 | | Portuguese | 1.877 | 1.331 | 1.526 | **1.140** | 1.938 | | Romanian | 2.878 | **1.347** | – | 10.740 | 21.577 | | Russian | 4.281 | 3.878 | 3.212 | **2.400** | 3.634 | | Spanish | 1.029 | 1.084 | 1.126 | **0.910** | 1.438 | | Thai | 2.701 | 73.936 | – | 4.230 | 2.961 | | Turkish | 1.52 | 0.699 | – | 0.870 | 0.817 | | Ukrainian | 1.082 | **0.997** | – | 2.300 | 6.316 | | Vietnamese | **0.88** | 73.415 | – | 7.410 | 3.307 |

Minimax-MLS-test SIM(⬆) 结果（点击展开）

| Language | Minimax | ElevenLabs | Qwen3-TTS | FishAudio S2 | **VoxCPM2** | |----------|:-------:|:----------:|:--------------------:|:------------:|:-----------:| | Arabic | 73.6 | 70.6 | – | 75.0 | **79.1** | | Cantonese | 77.8 | 67.0 | – | 80.5 | **83.5** | | Chinese | 78.0 | 67.7 | 79.9 | 81.6 | **82.5** | | Czech | 79.6 | 68.5 | – | **79.8** | 78.3 | | Dutch | 73.8 | 68.0 | – | 73.0 | **80.8** | | English | 75.6 | 61.3 | 77.5 | 79.7 | **85.4** | | Finnish | 83.5 | 75.9 | – | 81.9 | **89.0** | | French | 62.8 | 53.5 | 62.8 | 69.8 | **73.5** | | German | 73.3 | 61.4 | 77.5 | 76.7 | **80.3** | | Greek | 82.6 | 73.3 | – | 79.5 | **86.0** | | Hindi | 81.8 | 73.0 | – | 82.1 | **85.6** | | Indonesian | 72.9 | 66.0 | – | 76.3 | **80.0** | | Italian | 69.9 | 57.9 | 81.7 | 74.7 | **78.0** | | Japanese | 77.6 | 73.8 | 78.8 | 79.6 | **82.8** | | Korean | 77.6 | 70.0 | 79.9 | 81.7 | **83.3** | | Polish | 80.2 | 72.9 | – | 81.9 | **88.4** | | Portuguese | 80.5 | 71.1 | 81.7 | 78.1 | **83.7** | | Romanian | **80.9** | 69.9 | – | 73.3 | 79.7 | | Russian | 76.1 | 67.6 | 79.2 | 79.0 | **81.1** | | Spanish | 76.2 | 61.5 | 81.4 | 77.6 | **83.1** | | Thai | 80.0 | 58.8 | – | 78.6 | **84.0** | | Turkish | 77.9 | 59.6 | – | 83.5 | **87.1** | | Ukrainian | 73.0 | 64.7 | – | 74.7 | **79.8** | | Vietnamese | 74.3 | 36.9 | – | 74.0 | **80.6** |

### 内部 30 语种 ASR 基准测试我们还进行了一项内部多语种可懂度基准测试，包含 **30 种语言 × 500 个样本**。ASR 转录通过 **Gemini 3.1 Flash Lite API** 进行评估。

内部 30 语种 ASR 基准测试（点击展开）

| Language | Metric | VoxCPM2 | Fish S2-Pro | |---|---:|---:|---:| | ar (Arabic) | CER | 1.23% | 0.30% | | da (Danish) | WER | 2.70% | 3.52% | | de (German) | WER | 0.96% | 0.64% | | el (Greek) | WER | 3.17% | 4.61% | | en (English) | WER | 0.42% | 1.03% | | es (Spanish) | WER | 1.33% | 0.64% | | fi (Finnish) | WER | 2.24% | 2.80% | | fr (French) | WER | 2.16% | 2.34% | | he (Hebrew) | CER | 2.98% | 15.27% | | hi (Hindi) | CER | 0.79% | 0.91% | | id (Indonesian) | WER | 1.36% | 1.68% | | it (Italian) | WER | 1.65% | 1.08% | | ja (Japanese) | CER | 2.40% | 1.82% | | km (Khmer) | CER | 2.05% | 75.15% | | ko (Korean) | CER | 0.95% | 0.29% | | lo (Lao) | CER | 1.90% | 87.40% | | ms (Malay) | WER | 1.75% | 1.41% | | my (Burmese) | CER | 1.42% | 85.27% | | nl (Dutch) | WER | 1.25% | 1.68% | | no (Norwegian) | WER | 2.49% | 3.76% | | pl (Polish) | WER | 1.90% | 1.65% | | pt (Portuguese) | WER | 1.48% | 1.49% | | ru (Russian) | WER | 0.90% | 0.86% | | sv (Swedish) | WER | 2.22% | 2.63% | | sw (Swahili) | CER | 1.07% | 2.02% | | th (Thai) | CER | 0.94% | 1.92% | | tl (Tagalog) | WER | 2.63% | 4.00% | | tr (Turkish) | WER | 1.65% | 1.65% | | vi (Vietnamese) | WER | 1.56% | 5.56% | | zh (Chinese) | CER | 0.92% | 1.02% | | Average (30 languages) | **1.68%** | - |

### InstructTTSEval

指令引导的声音设计结果（点击展开）

| Model | InstructTTSEval-ZH | | | InstructTTSEval-EN | | | |-------|:---:|:----:|:----:|:----:|:----:|:----:| | | APS⬆| DSD⬆ | RP⬆| APS⬆ | DSD⬆ | RP⬆ | | Hume | – | – | – | 83.0 | 75.3 | 54.3 | | VoxInstruct | 47.5 | 52.3 | 42.6 | 54.9 | 57.0 | 39.3 | | Parler-tts-mini | – | – | – | 63.4 | 48.7 | 28.6 | | Parler-tts-large | – | – | – | 60.0 | 45.9 | 31.2 | | PromptTTS | – | – | – | 64.3 | 47.2 | 31.4 | | PromptStyle | – | – | – | 57.4 | 46.4 | 30.9 | | VoiceSculptor | 75.7 | 64.7 | 61.5 | – | – | – | | Mimo-Audio-7B-Instruct | 75.7 | 74.3 | 61.5 | 80.6 | 77.6 | 59.5 | | Qwen3TTS-12Hz-1.7B-VD | **85.2** | **81.1** | **65.1** | 82.9 | 82.4 | 68.4 | | **VoxCPM2** | **85.2** | 71.5 | 60.8 | **84.2** | **83.2** | **71.4** |

## ⚙️ 微调 VoxCPM 同时支持 **全量微调（SFT）** 与 **LoRA 微调**。仅需 **5–10 分钟** 的音频，即可适配特定说话人、语言或领域。 ``` # LoRA fine-tuning (parameter-efficient, recommended) python scripts/train_voxcpm_finetune.py \ --config_path conf/voxcpm_v2/voxcpm_finetune_lora.yaml # Full fine-tuning python scripts/train_voxcpm_finetune.py \ --config_path conf/voxcpm_v2/voxcpm_finetune_all.yaml # WebUI for training & inference python lora_ft_webui.py # then open http://localhost:7860 ``` ## 📚 文档完整文档：**[voxcpm.readthedocs.io](https://voxcpm.readthedocs.io/en/latest/)** | 主题 | 链接 | |---|---| | 快速开始与安装 | [快速开始](https://voxcpm.readthedocs.io/en/latest/quickstart.html) | | 使用指南与 Cookbook | [用户指南](https://voxcpm.readthedocs.io/en/latest/usage_guide.html) | | VoxCPM 系列 | [模型](https://voxcpm.readthedocs.io/en/latest/models/version_history.html) | | 微调（SFT & LoRA） | [微调指南](https://voxcpm.readthedocs.io/en/latest/finetuning/finetune.html) | | 常见问题与故障排查 | [FAQ](https://voxcpm.readthedocs.io/en/latest/faq.html) | ## 🌟 生态与社区 | 项目 | 描述 | |---|---| | [**Nano-vLLM**](https://github.com/a710128/nanovllm-voxcpm) | 高吞吐与快速 GPU 服务 | | [**VoxCPM.cpp**](https://github.com/bluryar/VoxCPM.cpp) | GGML/GGUF：CPU、CUDA、Vulkan 推理 | | [**VoxCPM-ONNX**](https://github.com/bluryar/VoxCPM-ONNX) | 用于 CPU 推理的 ONNX 导出 | | [**VoxCPMANE**](https://github.com/0seba/VoxCPMANE) | Apple Neural Engine 后端 | | [**voxcpm_rs**](https://github.com/madushan1000/voxcpm_rs) | Rust 重新实现 | | [**ComfyUI-VoxCPM**](https://github.com/wildminder/ComfyUI-VoxCPM) | ComfyUI 节点式工作流 | | [**ComfyUI-VoxCPMTTS**](https://github.com/1038lab/ComfyUI-VoxCPMTTS) | ComfyUI TTS 扩展 | | [**TTS WebUI**](https://github.com/rsxdalv/tts_webui_extension.vox_cpm) | 基于浏览器的 TTS 扩展 | ## ⚠️ 风险与限制 - **潜在误用风险：** VoxCPM 的声音克隆功能可以生成高度逼真的合成语音。**严禁**将 VoxCPM 用于冒充、欺诈或散布虚假信息。我们强烈建议对任何 AI 生成内容进行明确标注。 - **可控生成稳定性：** 声音设计与可控声音克隆的结果在不同运行间可能存在差异 —— 您可以尝试生成 1~3 次以获得所需的声音或风格。我们正在积极改进可控生成的一致性。 - **语言覆盖范围：** VoxCPM2 官方支持 30 种语言。对于列表之外的语言，欢迎您直接测试或使用自己的数据进行微调。我们计划在未来版本中扩展语言覆盖范围。 - **使用：** 本模型依据 Apache-2.0 许可发布。对于生产部署，建议根据您的具体用例进行充分的测试与安全评估。 ## 📖 引用如果您觉得 VoxCPM 有帮助，请考虑引用我们的工作并给仓库点个星 ⭐！ ``` @article{voxcpm2_2026, title = {VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning}, author = {VoxCPM Team}, journal = {GitHub}, year = {2026}, } @article{voxcpm2025, title = {VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning}, author = {Zhou, Yixuan and Zeng, Guoyang and Liu, Xin and Li, Xiang and Yu, Renjie and Wang, Ziyang and Ye, Runchuan and Sun, Weiyue and Gui, Jiancheng and Li, Kehan and Wu, Zhiyong and Liu, Zhiyuan}, journal = {arXiv preprint arXiv:2509.24650}, year = {2025}, } ``` ## 📄 许可证 VoxCPM 模型权重与代码依据 [Apache-2.0](LICENSE) 许可开源。 ## 🙏 致谢 - [DiTAR](https://arxiv.org/abs/2502.03930) 提供的扩散自回归骨干 - [MiniCPM-4](https://github.com/OpenBMB/MiniCPM) 提供的语言模型基础 - [CosyVoice](https://github.com/FunAudioLLM/CosyVoice) 提供的基于 Flow Matching 的 LocDiT 实现 - [DAC](https://github.com/descriptinc/descript-audio-codec) 提供的 Audio VAE 骨干 - 社区用户对 VoxCPM 的尝试、问题反馈、建议分享与贡献 —— 您的支持让项目持续进步 ## 机构

ModelBest THUHCSI

## ⭐ Star History [![Star History Chart](https://api.star-history.com/svg?repos=OpenBMB/VoxCPM&type=Date)](https://star-history.com/#OpenBMB/VoxCPM&Date)

标签：Hugging Face, ModelScope, OpenBMB, Tokenizer-Free, TTS, VoxCPM2, 人工智能, 凭据扫描, 创意语音设计, 声音复刻, 多语言, 无词元化器, 深度学习, 生成式模型, 用户模式Hook绕过, 语音克隆, 语音合成, 语音生成, 跨语言, 逆向工具, 音频处理