fishaudio/fish-speech

GitHub: fishaudio/fish-speech

开源 SOTA 级多语言文本转语音系统，支持零样本声音克隆、自然语言情感控制和多说话人生成。

Stars: 25691 | Forks: 2171

Fish Speech

## 快速开始 ### 面向人类这里是 Fish Audio S2 的官方文档，按照说明即可轻松上手。 - [安装说明](https://speech.fish.audio/install/) - [命令行推理](https://speech.fish.audio/inference/#command-line-inference) - [WebUI 推理](https://speech.fish.audio/inference/#webui-inference) - [服务器推理](https://speech.fish.audio/server/) - [Docker 配置](https://speech.fish.audio/install/#docker-setup) ### 面向 LLM Agent ``` Install and configure Fish-Audio S2 by following the instructions here: https://speech.fish.audio/install/ ``` ## Fish Audio S2 **开源与闭源系统中最佳的文本转语音系统** Fish Audio S2 是由 [Fish Audio](https://fish.audio/) 开发的最新模型。该模型基于约 50 种语言的超过 1000 万小时音频数据进行训练，结合了强化学习对齐与 Dual-Autoregressive 架构，能够生成听起来自然、逼真且情感丰富的语音。 S2 支持使用自然语言标签（如 `[laugh]`、`[whispers]` 和 `[super happy]`）对韵律和情感进行细粒度的内联控制，并原生支持多说话人和多轮生成。访问 [Fish Audio 网站](https://fish.audio/) 体验在线试玩。阅读 [博客文章](https://fish.audio/blog/fish-audio-open-sources-s2/) 和 [技术报告](https://github.com/fishaudio/fish-speech/blob/main/FishAudioS2TecReport.pdf) 了解更多详情。 ### 模型变体 | 模型 | 大小 | 获取方式 | 描述 | |------|------|-------------|-------------| | S2-Pro | 4B 参数 | [HuggingFace](https://huggingface.co/fishaudio/s2-pro) | 具备最高质量和稳定性的全功能旗舰模型 | 关于模型的更多细节可以在 [技术报告](https://arxiv.org/abs/2411.01156) 中找到。 ## 基准测试结果 | 基准测试 | Fish Audio S2 | |------|------| | Seed-TTS Eval — WER (中文) | **0.54%** (整体最佳) | | Seed-TTS Eval — WER (英文) | **0.99%** (整体最佳) | | Audio Turing Test (含指令) | **0.515** 后验均值 | | EmergentTTS-Eval — 胜率 | **81.88%** (整体最高) | | Fish Instruction Benchmark — TAR | **93.3%** | | Fish Instruction Benchmark — 质量 | **4.51 / 5.0** | | 多语言 (MiniMax 测试集) — 最佳 WER | **24 种语言中的 11 种** | | 多语言 (MiniMax 测试集) — 最佳 SIM | **24 种语言中的 17 种** | 在 Seed-TTS Eval 上，S2 在所有评估模型（包括闭源系统）中取得了最低的 WER：Qwen3-TTS (0.77/1.24)、MiniMax Speech-02 (0.99/1.90)、Seed-TTS (1.12/2.25)。在 Audio Turing Test 上，0.515 的分数比 Seed-TTS (0.417) 高出 24%，比 MiniMax-Speech (0.387) 高出 33%。在 EmergentTTS-Eval 上，S2 在副语言学（91.61% 胜率）、疑问句（84.41%）和句法复杂性（83.39%）方面表现尤为出色。 ## 亮点

### 通过自然语言进行细粒度内联控制 S2 允许通过在文本中的特定单词 or 短语位置直接嵌入自然语言指令，来对语音生成进行局部控制。S2 不依赖固定的预定义标签集，而是接受自由形式的文本描述 —— 例如 `[whisper in small voice]`、`[professional broadcast tone]` 或 `[pitch up]` —— 从而实现词汇级别的开放式表达控制。 ### Dual-Autoregressive 架构 S2 基于 decoder-only transformer 构建，并结合了基于 RVQ 的音频编解码器（10 个 codebook，约 21 Hz 帧率）。Dual-AR 架构将生成过程分为两个阶段： - **慢速 AR (Slow AR)** 沿时间轴运行，预测主语义 codebook。 - **快速 AR (Fast AR)** 在每个时间步生成剩余的 9 个残差 codebook，重建细粒度的声学细节。这种非对称设计 —— 时间轴方向 4B 参数，深度轴方向 400M 参数 —— 在保持推理高效的同时保留了音频保真度。 ### 强化学习对齐 S2 使用 Group Relative Policy Optimization (GRPO) 进行训练后对齐。用于过滤和标注训练数据的相同模型在 RL 期间被直接复用为奖励模型 —— 消除了预训练数据与训练后目标之间的分布不匹配。奖励信号结合了语义准确性、指令遵循度、声学偏好评分和音色相似度。 ### 通过 SGLang 实现生产级流式传输由于 Dual-AR 架构在结构上与标准自回归 LLM 同构，S2 直接继承了 SGLang 的所有 LLM 原生服务优化 —— 包括连续批处理、分页 KV 缓存、CUDA graph 重放以及基于 RadixAttention 的前缀缓存。在单张 NVIDIA H200 GPU 上： - **实时率 (RTF):** 0.195 - **首音频延迟:** ~100 ms - **吞吐量:** 3,000+ 声学 tokens/s，同时保持 RTF 低于 0.5 ### 多语言支持 S2 支持高质量的多语言文本转语音，无需音素或特定语言的预处理。包括： **英语、中文、日语、韩语、阿拉伯语、德语、法语……** **以及更多！** 支持列表正在不断扩展，请查看 [Fish Audio](https://fish.audio/) 获取最新发布信息。 ### 原生多说话人生成

Fish Audio S2 允许用户上传包含多说话人的参考音频，模型将通过 `<|speaker:i|>` token 处理每个说话人的特征。然后你可以使用说话人 ID token 控制模型的表现，从而允许单次生成包含多个说话人。你不再需要为每个说话人单独上传参考音频。 ### 多轮生成得益于模型上下文的扩展，我们的模型现在可以利用先前的信息来提高后续生成内容的表达能力，从而增加内容的自然度。 ### 快速声音克隆 Fish Audio S2 支持使用短参考样本（通常为 10-30 秒）进行精准的声音克隆。该模型能够捕捉音色、说话风格和情感倾向，生成逼真且一致的克隆声音，无需额外的微调。请参考 [SGLang-Omni README](https://github.com/sgl-project/sglang-omni/blob/main/sglang_omni/models/fishaudio_s2_pro/README.md) 以使用 SGLang 服务器。 ## 鸣谢 - [VITS2 (daniilrobnikov)](https://github.com/daniilrobnikov/vits2) - [Bert-VITS2](https://github.com/fishaudio/Bert-VITS2) - [GPT VITS](https://github.com/innnky/gpt-vits) - [MQTTS](https://github.com/b04901014/MQTTS) - [GPT Fast](https://github.com/pytorch-labs/gpt-fast) - [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS) - [Qwen3](https://github.com/QwenLM/Qwen3) ## 技术报告 ``` @misc{fish-speech-v1.4, title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis}, author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing}, year={2024}, eprint={2411.01156}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2411.01156}, } @misc{liao2026fishaudios2technical, title={Fish Audio S2 Technical Report}, author={Shijia Liao and Yuxuan Wang and Songting Liu and Yifan Cheng and Ruoyi Zhang and Tianyu Li and Shidong Li and Yisheng Zheng and Xingwei Liu and Qingzheng Wang and Zhizhuo Zhou and Jiahua Liu and Xin Chen and Dawei Han}, year={2026}, eprint={2603.08823}, archivePrefix={arXiv}, primaryClass={cs.SD}, url={https://arxiv.org/abs/2603.08823}, } ```

标签：AIGC, DLL 劫持, Docker, Fish Audio, Fish Speech, Hugging Face, SOTA, Transformer, TTS, Vectored Exception Handling, 人工智能, 人机交互, 凭据扫描, 声码器, 声音克隆, 多语言支持, 大语言模型, 安全测试框架, 安全防御评估, 开源模型, 数字人, 文本转语音, 深度学习, 用户模式Hook绕过, 神经网路, 自动语音识别, 语音合成, 语音技术, 语音生成, 请求拦截, 逆向工具