debpalash/OmniVoice-Studio

GitHub: debpalash/OmniVoice-Studio

一款开源的本地化桌面端 AI 语音处理应用，提供零样本声音克隆、声音设计、视频配音与实时听写功能，可替代 ElevenLabs。

Stars: 7205 | Forks: 1106

OmniVoice Studio

The open-source ElevenLabs alternative.

Real-time dictation, zero-shot voice cloning, and cinematic video dubbing — all on your desktop.
Open-source, no API keys, fully local. 646 languages.

快速开始 · 功能 · 为什么选择 OmniVoice Studio？ · TTS 引擎 · ASR 引擎 · 参与贡献 · Discord · 简体中文

_{macOS: first launch needs a one-time approval — right-click → Open (or System Settings → Privacy & Security → "Open Anyway" on macOS 15). No Terminal needed. Why?}

OmniVoice Studio — The open-source ElevenLabs alternative

_{Get setup help · Share your dubs · Vote on the roadmap · Early access to new engines}

## 功能

🎙️ 声音克隆

3 秒音频片段 → 镜像任何声音。
646 种语言，零样本。

🎨 声音设计

性别、年龄、口音、音调、语速、
情感、方言 — 随心调节。

🎬 视频配音

YouTube URL 或文件 → 转录 →
翻译 → 重新配音 → MP4。

⌨️ 听写小组件

在任何应用中按下 ⌘+⇧+Space。
自动转录、自动粘贴、然后自动隐藏。

🔊 人声分离

由 Demucs 驱动。将语音与
音乐分离，保留背景音。

👥 说话人分离

Pyannote + WhisperX。
自动识别谁说了什么。

📦 批量队列

拖入 50 个视频，然后放手不管。
每个任务都有进度条。

🤖 MCP 服务器

从 Claude、Cursor 或任何
MCP 客户端中使用 OmniVoice。

🛡️ AI 水印

AudioSeal (Meta)。不可见，
经受得住压缩处理。

🔐 100% 本地运行

无需密钥、无需云端、无需账号。
仅在你的设备上运行。

⚡ GPU 自动检测

CUDA · MPS · ROCm · CPU。
≤8 GB？自动卸载。

🧩 可扩展

继承 TTSBackend，
只需 ~50 行代码即可添加任何引擎。

## 快速开始各操作系统的安装指南 — 选择你的系统并按照指南从头到尾操作： - **macOS** — [docs/install/macos.md](docs/install/macos.md) - **Windows** — [docs/install/windows.md](docs/install/windows.md) - **Linux** — [docs/install/linux.md](docs/install/linux.md) - **Docker** — [docs/install/docker.md](docs/install/docker.md) · [Docker Hub: `palashdeb/omnivoice-studio`](https://hub.docker.com/r/palashdeb/omnivoice-studio) 遇到问题了？首先运行内置的自检功能 — 在应用中点击 **Settings → About → "Run self-check"**，或者在检出目录中运行 `uv run python backend/main.py --diagnose` （`--deep` 还会测试加载当前活动的引擎）。然后查看 [docs/install/troubleshooting.md](docs/install/troubleshooting.md) 了解排名前 10 的安装错误。当运行时出现问题时，应用内的错误 UI 会提供指向这些条目的深层链接，并且 **Settings → About → "Save diagnostic bundle"** 会打包脱敏日志和自检报告，用于提交 Bug 报告。关于 Hugging Face token 设置，请参阅 [docs/setup/huggingface-token.md](docs/setup/huggingface-token.md)。关于特定于说话人分离的限制，请参阅 [docs/features/diarization.md](docs/features/diarization.md)。关于下载速度、⚡ 快速下载 (Xet) 状态以及受限网络 / 镜像选项，请参阅 [docs/downloading-models.md](docs/downloading-models.md)。 ## 截图

Voice Clone _{Drop a 3-second clip → mirror any voice. 646 languages, zero-shot.}	Voice Design _{Build new voices from scratch — gender, age, accent, pitch, style.}
Video Dubbing _{Upload or paste a YouTube URL. Transcribe, translate, re-voice, export.}	Voice Gallery _{Search YouTube, browse categories, download clips, build your library.}
Settings → Models _{15 models. One-click install. Auto-detects your platform (CUDA / MPS / CPU).}	Projects _{Dub projects, voice profiles, generation history, exports — all searchable.}
Settings → Logs _{Live backend, frontend, and Tauri runtime logs. Filter, refresh, clear.}

## 为什么选择 OmniVoice Studio？ ElevenLabs 每月收取 **$5–$330**，并在他们的服务器上处理你的音频。OmniVoice Studio 运行在**你自己的硬件上，没有任何使用限制！** | | **ElevenLabs** | **OmniVoice Studio** | |---|---|---| | **定价** | $5–$330/月，按字符数计费 | 免费且开源 (AGPL-3.0) · 专有用途需 [商业许可](#license) | | **声音克隆** | ✅ 3秒片段 | ✅ 3秒片段，零样本 | | **声音设计** | ✅ 性别、年龄 | ✅ 性别、年龄、口音、音调、风格、方言 | | **语言** | 32 | **646** | | **视频配音** | ✅ 仅限云端 | ✅ 完全本地化 | | **数据隐私** | 音频发送至云端 | **数据绝不离开你的设备** | | **API 密钥** | 必需 | 无需 | | **GPU 支持** | N/A (云端) | CUDA · Apple Silicon · ROCm · CPU | | **桌面应用** | ❌ | ✅ macOS · Windows · Linux | | **可定制性** | ❌ 闭源 | ✅ 尽情 Fork、扩展和发布 | OmniVoice Studio 为你提供专业级的 AI 工具，无需订阅，也无需依赖云端。

Convinced? Come build with us.

## 系统要求 | | **最低配置** | **推荐配置** | |---|---|---| | **操作系统** | Windows 10, macOS 12+, Ubuntu 20.04+ | 任何现代的 64 位操作系统 | | **内存 (RAM)** | 8 GB | 16 GB+ | | **显存 (VRAM) (GPU)** | 4 GB (自动将 TTS 卸载到 CPU) | 8 GB+ (NVIDIA RTX 3060+) | | **硬盘** | 10 GB 可用空间（模型 + 缓存） | 20 GB+ SSD | | **Python** | 3.10+ (由 `uv` 管理) | 3.11–3.12 | | **GPU** | 可选 — 仅用 CPU 也可运行 | NVIDIA CUDA · Apple Silicon MPS · AMD ROCm | ### TTS 引擎 OmniVoice 提供了一个多引擎 TTS 后端。默认引擎是始终可用的；其他引擎是可选的，并支持自动检测。你可以在 **Settings → TTS Engine** 中或通过 `OMNIVOICE_TTS_BACKEND` 环境变量切换引擎。 | 引擎 | 语言 | 克隆 | 指令控制 | Linux | macOS ARM | Windows | 许可证 | |--------|:---------:|:-----:|:--------:|:-----:|:---------:|:-------:|:-------:| | **OmniVoice** (默认) | 600+ | ✅ | ✅ | ✅ CUDA/CPU | ✅ MPS | ✅ CUDA/CPU | 内置 | | **CosyVoice 3** | 9 + 18 种方言 | ✅ | ✅ | ✅ CUDA/CPU | ✅ MPS | ✅ CUDA/CPU | Apache-2.0 | | **MLX-Audio** (Kokoro, Qwen3-TTS, CSM, Dia, …) | 多语言 | 视情况而定 | 视情况而定 | ❌ | ✅ 原生 | ❌ | 视情况而定 | | **VoxCPM2** | 30 | ✅ | ✅ | ✅ CUDA/CPU | ✅ MPS | ✅ CUDA/CPU | Apache-2.0 | | **MOSS-TTS-Nano** | 20 | ✅ | ❌ | ✅ CUDA/CPU | ✅ CPU | ✅ CUDA/CPU | Apache-2.0 | | **KittenTTS** | 英语 | ❌ | ❌ | ✅ CPU | ✅ CPU | ✅ CPU | MIT | ### ASR 引擎 OmniVoice 提供了一个多引擎 ASR（语音转文本）后端，支持听写、视频配音和字幕生成 — 全部在本地完成。**WhisperX** 是跨平台的默认引擎；其余均为可选，并支持自动检测。你可以在 **Settings → ASR Engine** 中或通过 `OMNIVOICE_ASR_BACKEND` 环境变量进行切换。 | 引擎 | `OMNIVOICE_ASR_BACKEND` | 语言 | 最适合 | |--------|-------------------------|:---------:|----------| | **WhisperX** (默认) | `whisperx` | ~100 | 配音和字幕 — 通过 wav2vec2 强制对齐实现词级时间戳 | | **Faster-Whisper** | `faster-whisper` | ~100 | 在 Linux / macOS / Windows 上实现快速转录 (CTranslate2) | | **MLX Whisper** | `mlx-whisper` | ~100 | Apple Silicon 原生速度 (Apple MLX / Metal) | | **PyTorch Whisper** | `pytorch-whisper` | ~100 | 通过 🤗 Transformers 实现 CUDA / CPU 回退 | | **Parakeet TDT** | `nemo-parakeet` | 英语 + 25 种欧洲语言 | 业界顶尖 (SOTA) 的英语准确度，自动语言检测 (NVIDIA NeMo，仅限 GPU) | | **Moonshine** | `moonshine` | 英语 | 边缘计算 / 低延迟，ONNX | | **FunASR** | `funasr` | 50+ | 多语言一体化 — 内置 VAD + 内联说话人分离 (SenseVoice) | ## 架构 ``` ┌─────────────────────────────────────────────────┐ │ Frontend (React) │ │ DubTab · VoicePreview · BatchQueue · Gallery │ ├─────────────────────────────────────────────────┤ │ Backend (FastAPI) │ │ 97 API endpoints · SSE streaming · SQLite │ ├──────────┬──────────┬──────────┬────────────────┤ │ WhisperX │ Demucs │OmniVoice │ Pyannote │ │ ASR │ Source │ TTS │ Diarization │ │ │ Sep. │ │ │ └──────────┴──────────┴──────────┴────────────────┘ CUDA / MPS / ROCm / CPU (auto-detected) ``` ## 路线图 ### ✅ 已发布 | 类别 | 功能 | |----------|----------| | **配音** | 完整的流水线 (转录→翻译→合成→混流)，场景感知分割，唇形同步评分，流式 TTS | | **语音** | 零样本克隆，声音设计，A/B 比较，声音预览小组件，带收藏/标签的图库 | | **音频** | Demucs 人声分离，分段增益，选择性音轨导出，stem/SRT/VTT/MP3 导出 | | **多语言** | 多语言批量选择器，支持顺序 GPU 执行的批量配音队列 | | **说话人分离** | Pyannote ML 说话人分离，自动说话人克隆提取，按说话人分配声音 | | **基础设施** | Docker 部署，CUDA/MPS/ROCm 自动检测，cuDNN 8 兼容，感知 VRAM 的模型卸载 | | **AI 来源追踪** | AudioSeal 不可见水印 (类似 SynthID)，视频 Logo 叠加，水印检测 API | | **用户体验** | 撤销/重做，键盘快捷键，拖拽，会话持久化，毛玻璃效果设计系统 | | **实时事件** | WebSocket 事件总线 — 数据变更时即时侧边栏刷新，指数退避重连 | | **状态管理** | Zustand store 迁移 — `uiSlice`, `pillSlice`, `dubSlice`, `generateSlice`, `prefsSlice`, `glossarySlice` | | **桌面端** | 跨平台 Tauri 安装程序 (OS DMG, Windows MSI, Linux deb/AppImage)，自动更新基础设施 | | **Windows 强化** | 跨平台日志路径，Triton 变通方案，HF 符号链接绕过，300 秒健康检查超时 | | **听写** | 全局系统级热键 (`⌘+⇧+Space`)，无边框悬浮小组件，通过 WebSocket 实现流式 ASR，自动粘贴 | | **批处理流水线** | 完整的批量 TTS：提取 → 转录 → 翻译 → 生成 → 混合 → 导出，并带有实时进度跟踪 | ### 🔜 接下来 - 🎬 **唇形同步 v2** — 结合 wav2lip 的视觉语音时间调整 - 📖 **有声书编辑器** — 支持章节感知的长篇解说 - 🌐 **在线托管 Demo** — 无需安装即可试用 OmniVoice - 🔌 **插件市场** — 社区贡献的 TTS 引擎和音效 ## 常见问题

它真的和 ElevenLabs 一样好吗？

在声音克隆和配音方面，确实如此 — OmniVoice 使用了最先进的 (SOTA) 扩散 TTS 模型，支持 646 种语言（ElevenLabs 仅支持 32 种）。对于大多数用例，质量不相上下。ElevenLabs 的优势在于其打磨精良的云端 API 和预制声音库。而 OmniVoice 的优势在于隐私、成本、语言覆盖范围和可定制性。

它能在 Apple Silicon (M1/M2/M3/M4) 上运行吗？

可以。MPS 加速会被自动检测。针对 Apple 硬件，我们还提供了经过 MLX 优化的 Whisper 模型，以实现更快的转录速度。

我需要多少 VRAM？

最低 4 GB。如果 ≤8 GB，在转录期间 TTS 模型会自动卸载到 CPU。如果 8 GB 以上，所有任务都可以同时在 GPU 上运行。完全没有 GPU？CPU 模式也能工作 — 只是速度较慢（TTS 速度约为原来的 1/3）。

我可以将其用于商业用途吗？

可以 — 商业用途是免费的。OmniVoice Studio 是基于 GNU AGPL-3.0 协议的开源免费软件。因此，个人、教育、研究以及商业/企业用途全部免费：运行它，销售使用它制作的音频，为你自己或客户的视频配音，在你的团队中部署它。由于 AGPL 是一项网络 Copyleft 许可证，如果你修改了 OmniVoice Studio 并通过网络向他人提供该修改版本，你必须根据相同的 AGPL 条款向这些用户提供你修改版本的源代码。想要在闭源或专有产品中嵌入 OmniVoice 而不受这些义务约束？我们提供商业许可证 — 请参阅许可证。

支持哪些语言？

通过 OmniVoice 模型，TTS 支持 646 种语言。转录支持 99 种语言。翻译的覆盖范围取决于目标语言对。

我可以添加自己的 TTS 引擎吗？

可以。OmniVoice 使用了一个内置的后端注册表。只需大约 50 行代码即可添加一个引擎：继承 backend/services/tts_backend.py 中的 TTSBackend，并将其添加到底部的 _REGISTRY 字典中。目前内置了六个引擎：OmniVoice, CosyVoice, MLX-Audio (14+ 个子引擎), VoxCPM2, MOSS-TTS-Nano, 和 KittenTTS。详情请参阅 TTS 引擎部分。

## 许可证 OmniVoice Studio 是基于 [**GNU Affero General Public License v3.0 (AGPL-3.0)**](https://www.gnu.org/licenses/agpl-3.0.html) 协议的免费开源软件。 **任何用途均免费 — 包括商业和内部企业用途。** 运行它，销售用它制作的音频，为你自己或客户的视频配音，在你的团队中推广使用 — 全部免费，无需任何许可证。作为一项**网络 Copyleft** 许可证，AGPL 增加了一项义务：如果你**修改**了 OmniVoice Studio 并通过网络将该修改版本提供给他人，你必须根据相同的 AGPL-3.0 条款，向他们公开你修改版本的完整对应源代码。对于希望在不承担 AGPL-3.0 Copyleft 义务的情况下，将 OmniVoice Studio 嵌入**闭源或专有**产品或服务中的组织，我们提供**商业许可证**。**定价层级即将推出。** 咨询请联系：**OmniVoice@palash.dev**。由 Han Zhu 开发的内置 `omnivoice/` TTS 模型在上游保持 Apache-2.0 协议。完整的约束性条款请参阅 [`LICENSE`](LICENSE)。

标签：ElevenLabs替代, Vectored Exception Handling, 人工智能, 凭据扫描, 桌面应用, 用户模式Hook绕过, 视频配音, 语音克隆, 语音合成, 语音识别, 请求拦截, 逆向工具