NVIDIA-NeMo/Speech

GitHub: NVIDIA-NeMo/Speech

NVIDIA 推出的可扩展语音 AI 框架，帮助开发者基于 PyTorch 构建和部署自动语音识别（ASR）、文本转语音（TTS）及语音大模型。

Stars: 17787 | Forks: 3507

[![项目状态：活跃 -- 项目已达到稳定、可用的状态，并且正在积极开发中。](http://www.repostatus.org/badges/latest/active.svg)](http://www.repostatus.org/#active) [![文档](https://readthedocs.com/projects/nvidia-nemo/badge/?version=main)](https://docs.nvidia.com/nemo/speech/nightly/) [![CodeQL](https://static.pigsec.cn/wp-content/uploads/repos/cas/53/539e9a6bf48ad24469a4363bff3aa68124154549e26592783d3d8577f2acbbfc.svg)](https://github.com/nvidia/nemo/actions/workflows/codeql.yml) [![NeMo 核心许可证及此仓库中集合的许可证](https://img.shields.io/badge/License-Apache%202.0-brightgreen.svg)](https://github.com/NVIDIA/NeMo/blob/master/LICENSE) [![发布版本](https://badge.fury.io/py/nemo-toolkit.svg)](https://badge.fury.io/py/nemo-toolkit) [![Python 版本](https://img.shields.io/pypi/pyversions/nemo-toolkit.svg)](https://badge.fury.io/py/nemo-toolkit) [![PyPi 总下载量](https://static.pepy.tech/personalized-badge/nemo-toolkit?period=total&units=international_system&left_color=grey&right_color=brightgreen&left_text=downloads)](https://pepy.tech/project/nemo-toolkit) [![代码风格: black](https://img.shields.io/badge/code%20style-black-000000.svg)](https://github.com/psf/black) # NVIDIA NeMo Speech 请查看我们的 [HuggingFace🤗 集合](https://huggingface.co/collections/nvidia/nemotron-speech) 以获取最新的开源权重检查点和演示！ ## 更新日志 - 2026-06：[Nemotron-3.5-ASR-Streaming-0.6B](https://huggingface.co/nvidia/nemotron-3.5-asr-streaming-0.6b) 已发布，支持 40 种语言，可控延迟为 80ms-1s，并支持 240-2400 个 1xH100 并发流。基于缓存感知 Fastconformer 架构构建。 - 2026-04：[Parakeet-unified-en-0.6b](https://huggingface.co/nvidia/parakeet-unified-en-0.6b) 已发布，在一个模型中实现高质量的英语离线和流式推理（最低延迟为 160ms），并支持标点符号和大写字母。 - 2026-03：[Nemotron 3 VoiceChat](https://build.nvidia.com/nvidia/nemotron-voicechat/modelcard) 现已发布抢先体验版。它基于 Nemotron Nano v2 LLM 主干和 Nemotron 语音与 TTS 解码器构建，VoiceChat 可提供低延迟的全双工、自然且可打断的对话。请体验[该演示](https://build.nvidia.com/nvidia/nemotron-voicechat)并申请[抢先体验](https://developer.nvidia.com/nemotron-voicechat-early-access)。 - 2026-03：[Nemotron-Speech-Streaming v2603](https://huggingface.co/nvidia/nemotron-speech-streaming-en-0.6b) 已更新。它在更大、更多样化的语料库上进行了训练，从而在所有延迟模式下实现了更低的 WER。请体验[该演示](https://huggingface.co/spaces/nvidia/nemotron-speech-streaming-en-0.6b)并查看 [该 NIM](https://build.nvidia.com/nvidia/nemotron-asr-streaming)。 - 2026-03：[MagpieTTS v2602](https://huggingface.co/nvidia/magpie_tts_multilingual_357m) 已发布，支持 9 种语言（英语、西班牙语、德语、法语、越南语、意大利语、中文、印地语、日语）。请体验 [该演示](https://huggingface.co/nvidia/magpie_tts_multilingual_357m)并查看 [该 NIM](https://build.nvidia.com/nvidia/magpie-tts-multilingual)。 - 2026-01：Nemotron-Speech-Streaming 已发布：一个检查点即可让用户在延迟-准确率的 Pareto 曲线上挑选最佳点！ - 2026-01：MagpieTTS 已发布。 - 2026：此仓库已转型，专注于音频、语音和多模态 LLM。如需获取支持更多模态的上一个 NeMo 版本，请参阅 [v2.7.0](https://github.com/NVIDIA-NeMo/NeMo/releases/tag/v2.7.0) - 2025-08：[Parakeet V3](https://huggingface.co/nvidia/parakeet-tdt-0.6b-v3) 和 [Canary V2](https://huggingface.co/nvidia/canary-1b-v2) 已发布，支持 25 种欧洲语言的语音识别和翻译。 - 2025-06：[Canary-Qwen-2.5B](https://huggingface.co/nvidia/canary-qwen-2.5b) 已发布，在英语 Open ASR 排行榜上创下了 5.63% WER 的纪录。 ## 简介 NVIDIA NeMo Speech 专为从事语音模型（包括自动语音识别 (ASR)、文本转语音 (TTS) 和语音 LLM）的研究人员和 PyTorch 开发者而构建。它旨在帮助您利用现有代码和预训练模型检查点，高效地创建、自定义和部署新的 AI 模型。有关技术文档，请参阅 [NeMo 框架用户指南](https://docs.nvidia.com/nemo/speech/nightly/)。 ## 环境要求 NeMo Speech 可与**您选择的 Python、PyTorch 和 CUDA 版本**配合使用： - Python 3.12 或更高版本 - PyTorch 2.7 或更高版本（CPU、CUDA 等 —— 由您选择） - NVIDIA GPU + CUDA（训练必需；推荐用于推理）如果您已经满足这些最低要求的 Python/PyTorch/CUDA 环境，NeMo Speech 将直接在其之上安装，**无需替换原有环境**，因此您现有的 PyTorch 构建将被保留（请参阅下方的安装选项）。在 `uv.lock` 中固定并在官方容器中发布的版本 —— Python 3.13、PyTorch 2.12、CUDA 12.6/13.2 —— 仅仅是我们积极测试和支持的组合。它们使设置变得开箱即用且可复现，但**并非**硬性要求。从 [Pytorch 2.6](https://docs.pytorch.org/docs/stable/notes/serialization.html#torch-load-with-weights-only-true) 开始， `torch.load` 默认使用 `weights_only=True`。某些模型检查点可能需要使用 `weights_only=False`。在这种情况下，您可以在运行使用 `torch.load` 的代码之前设置环境变量 `TORCH_FORCE_NO_WEIGHTS_ONLY_LOAD=1`。但是，仅应对受信任的文件执行此操作。从不受信任的来源加载不仅仅是权重的文件可能会面临任意代码执行的风险。 ## 开发者文档 | 版本 | 状态 | 描述 | | ------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------ | | 最新版 | [![文档状态](https://readthedocs.com/projects/nvidia-nemo/badge/?version=main)](https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/main/) | [最新（即 main）分支的文档。](https://docs.nvidia.com/nemo/speech/nightly/) | | 稳定版 | [![文档状态](https://readthedocs.com/projects/nvidia-nemo/badge/?version=stable)](https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/stable/) | 稳定版（即最新发布版）的文档 - 待添加 | ## 安装 NeMo Speech 推荐使用 [uv](https://docs.astral.sh/uv/) 从源码安装 NeMo Speech，它可以通过已提交的 `uv.lock` 复现我们经过积极测试的环境。如果您需要不同的 Python/PyTorch/CUDA 版本，NeMo 也可以通过 pip 安装在您现有的环境上 —— 请参阅下方的 [pip 备选方案](#from-pypi-with-pip-fallback--bring-your-own-versions)。 ### 使用 uv 从源码安装（推荐） ``` git clone https://github.com/NVIDIA-NeMo/NeMo.git cd NeMo uv sync --extra all --extra cu13 # CUDA 13.x (recommended) — use --extra cu12 for CUDA 12.x ``` 这会将我们受支持的软件栈（Python 3.13、PyTorch 2.12、CUDA 13.2）安装到 `.venv/` 中，并将 NeMo 设置为可编辑模式。添加 `--group test` 以安装测试套件，或添加 `--group docs` 来构建文档；通过 `uv run ` 运行工具，或使用 `source .venv/bin/activate` 激活环境。在 Linux 上，`cu12` 和 `cu13` 是互斥的 —— 请准确传入其中一个（`cu13` 是默认值）。要获得**完全一致**的容器基准，请添加 `--locked --python 3.13`（这是 Dockerfile 和 CI 使用的路径）。 ### Docker（开箱即用，包含我们受支持的软件栈）从源码构建容器（默认支持 CUDA 13 / H100+）： ``` git clone https://github.com/NVIDIA-NeMo/NeMo.git cd NeMo docker buildx build -f docker/Dockerfile -t nemo-speech . # CUDA 13 / H100+ (default) docker run --rm -it --gpus all -v "$PWD:/workspace" nemo-speech bash ``` 对于 A100，请设置 `GPU_TARGET=a100` —— A100 支持 **CUDA 12 和 CUDA 13**（推荐使用默认的基础镜像 CUDA 13；提供 CUDA 12 基础镜像只是为了方便）。有关所有构建参数（`BASE_IMAGE`、`GPU_TARGET`），请参阅 [`docker/Dockerfile`](docker/Dockerfile) 的头部说明。 ### 使用 pip 从 PyPI 安装（备选方案 —— 使用您自带的版本）想使用您自己的 Python/PyTorch/CUDA？请先安装您的 PyTorch（适用于您的 CPU/CUDA 等目标的任何 ≥ 2.7 的版本 —— 请参阅 [PyTorch 安装矩阵](https://pytorch.org/get-started/locally/)），然后添加 NeMo，它将**保留您的构建版本**。`uv pip`（uv 的快速、兼容 pip 的安装程序）的使用方式与 `pip` 类似： ``` uv pip install 'nemo-toolkit[asr,tts]' # or plain: pip install 'nemo-toolkit[asr,tts]' ``` 如果想改为拉取*我们*指定的 PyTorch 构建版本，请添加 CUDA 额外依赖项和匹配的 wheel 索引（pip/uv pip 不会读取 uv 的项目索引配置，因此需要使用 `--extra-index-url`）： ``` pip install 'nemo-toolkit[asr,tts,cu13]' --extra-index-url https://download.pytorch.org/whl/cu132 # CUDA 13.x pip install 'nemo-toolkit[asr,tts,cu12]' --extra-index-url https://download.pytorch.org/whl/cu126 # CUDA 12.x ``` ## 为 NeMo 做贡献我们欢迎社区的贡献！有关流程，请参阅 [CONTRIBUTING.md](https://github.com/NVIDIA-NeMo/NeMo/blob/main/CONTRIBUTING.md)。 ## 许可证 NeMo 采用 [Apache License 2.0](https://github.com/NVIDIA/NeMo?tab=Apache-2.0-1-ov-file) 许可证。

标签：DLL 劫持, PyTorch, Vectored Exception Handling, 人工智能, 凭据扫描, 多模态, 大语言模型, 用户模式Hook绕过, 语音合成, 语音识别, 请求拦截, 逆向工具