NVIDIA-NeMo/NeMo
GitHub: NVIDIA-NeMo/NeMo
NVIDIA 推出的开源语音 AI 框架,提供从 ASR、TTS 到语音大模型的完整训练、微调与部署能力,帮助研究者和开发者高效构建定制化语音模型。
Stars: 17213 | Forks: 3416
[](http://www.repostatus.org/#active)
[](https://docs.nvidia.com/nemo/speech/nightly/)
[](https://github.com/nvidia/nemo/actions/workflows/codeql.yml)
[](https://github.com/NVIDIA/NeMo/blob/master/LICENSE)
[](https://badge.fury.io/py/nemo-toolkit)
[](https://badge.fury.io/py/nemo-toolkit)
[](https://pepy.tech/project/nemo-toolkit)
[](https://github.com/psf/black)
# **NVIDIA NeMo Speech**
欢迎查看我们的 [HuggingFace🤗 合集](https://huggingface.co/collections/nvidia/nemotron-speech),获取最新的开放权重检查点和演示!
## 更新
- 2026-04: [Parakeet-unified-en-0.6b](https://huggingface.co/nvidia/parakeet-unified-en-0.6b) 已发布,该模型为英语提供了高质量的离线和流式(最低延迟为 160ms)推理,并支持标点符号预测和大小写。
- 2026-03: [Nemotron 3 VoiceChat](https://build.nvidia.com/nvidia/nemotron-voicechat/modelcard) 现已推出抢先体验版。它基于 Nemotron Nano v2 LLM 主干网络和 Nemotron 语音与 TTS 解码器构建,VoiceChat 可提供全双工、自然、可打断的低延迟对话。请试用[演示](https://build.nvidia.com/nvidia/nemotron-voicechat)并申请[抢先体验](https://developer.nvidia.com/nemotron-voicechat-early-access)。
- 2026-03: [Nemotron-Speech-Streaming v2603](https://huggingface.co/nvidia/nemotron-speech-streaming-en-0.6b) 已更新。它在更大、更多样化的语料库上进行了训练,从而在所有延迟模式下均实现了更低的 WER。请试用[演示](https://huggingface.co/spaces/nvidia/nemotron-speech-streaming-en-0.6b)并查看[NIM](https://build.nvidia.com/nvidia/nemotron-asr-streaming)。
- 2026-03: [MagpieTTS v2602](https://huggingface.co/nvidia/magpie_tts_multilingual_357m) 已发布,支持 9 种语言(En, Es, De, Fr, Vi, It, Zh, Hi, Ja)。请试用[演示](https://huggingface.co/nvidia/magpie_tts_multilingual_357m)并查看[NIM](https://build.nvidia.com/nvidia/magpie-tts-multilingual)。
- 2026-01: Nemotron-Speech-Streaming 已发布:一个检查点即可让用户在延迟-准确率的帕累托曲线上选择其最佳点!
- 2026-01: MagpieTTS 已发布。
- 2026: 本仓库已转型,专注于音频、语音和多模态 LLM。如需获取支持更多模态的最后一个 NeMo 版本,请参见 [v2.7.0](https://github.com/NVIDIA-NeMo/NeMo/releases/tag/v2.7.0)
- 2025-08: [Parakeet V3](https://huggingface.co/nvidia/parakeet-tdt-0.6b-v3) 和 [Canary V2](https://huggingface.co/nvidia/canary-1b-v2) 已发布,支持 25 种欧洲语言的语音识别和翻译。
- 2025-06: [Canary-Qwen-2.5B](https://huggingface.co/nvidia/canary-qwen-2.5b) 已发布,在英语 Open ASR 排行榜上创下了 5.63% WER 的纪录。
## 简介
NVIDIA NeMo Speech 专为从事语音模型(包括自动语音识别 (ASR)、文本转语音 (TTS) 和语音 LLM)的研究人员和 PyTorch 开发人员而构建。它旨在帮助您通过利用现有代码和预训练模型检查点,高效地创建、自定义和部署新的 AI 模型。
有关技术文档,请参阅
[NeMo 框架用户指南](https://docs.nvidia.com/nemo/speech/nightly/)。
## 系统要求
- Python 3.12 或更高版本
- Pytorch 2.6 或更高版本
- NVIDIA GPU(如果您打算进行模型训练)
自 [Pytorch 2.6](https://docs.pytorch.org/docs/stable/notes/serialization.html#torch-load-with-weights-only-true) 起,
`torch.load` 默认使用 `weights_only=True`。某些模型检查点可能需要使用 `weights_only=False`。
在这种情况下,您可以在运行使用 `torch.load` 的代码之前设置环境变量 `TORCH_FORCE_NO_WEIGHTS_ONLY_LOAD=1`。
但是,只有在处理受信任的文件时才应这样做。加载来自不受信任来源且不仅仅包含权重的文件可能会带来任意代码执行的风险。
## 开发者文档
| 版本 | 状态 | 描述 |
| ------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------ |
| 最新版 | [](https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/) | [最新版(即 main 分支)文档。](https://docs.nvidia.com/nemo/speech/nightly/) |
| 稳定版 | [](https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/stable/) | 稳定版(即最新发布版本)文档 - 待添加 |
## 安装 NeMo Speech
NeMo Speech 可通过 pip 安装:`pip install 'nemo-toolkit[all]'`
要安装带有 CUDA 12.x 或 13.x 额外依赖的版本,请分别使用 `pip install 'nemo-toolkit[all,cu12]'`
或 `pip install 'nemo-toolkit[all,cu13]'`。
## 为 NeMo 贡献
我们欢迎社区的贡献!有关流程,请参阅
[CONTRIBUTING.md](https://github.com/NVIDIA-NeMo/NeMo/blob/main/CONTRIBUTING.md)。
## 许可证
NeMo 采用 [Apache License 2.0](https://github.com/NVIDIA/NeMo?tab=Apache-2.0-1-ov-file) 授权。
标签:AI助手开发, AI框架, Apex, ASR, DLL 劫持, Hugging Face, IPv6支持, LLM, Neural Machine Translation, NLP, NVIDIA NeMo, Python, PyTorch, TTS, Unmanaged PE, Vectored Exception Handling, 人工智能, 代码库, 低延迟, 凭据扫描, 可扩展框架, 多模态, 大语言模型, 威胁情报, 实时语音, 开发者工具, 开源框架, 持续集成, 文本转语音, 无后门, 机器学习, 机器翻译, 模型训练, 深度学习, 生成式AI, 用户模式Hook绕过, 研究人员, 端到端模型, 索引, 自动语音识别, 语音AI, 语音合成, 语音对话, 语音技术, 语音聊天, 逆向工具