jamiepine/voicebox
GitHub: jamiepine/voicebox
一个本地优先、开源的语音克隆与合成工作室,替代云端 TTS 并保护隐私。
Stars: 17034 | Forks: 2010
Voicebox
## 什么是 Voicebox? Voicebox 是一个 **本地优先的语音克隆工作室** — 一个免费且开源的 ElevenLabs 替代方案。从几秒钟的音频中克隆声音,在 5 个 TTS 引擎中生成 23 种语言的语音,应用后处理效果,并使用时间线编辑器组合多语音项目。 - **完全隐私** — 模型和语音数据保留在您的设备上 - **5 个 TTS 引擎** — Qwen3-TTS、LuxTTS、Chatterbox Multilingual、Chatterbox Turbo 和 HumeAI TADA - **23 种语言** — 从英语到阿拉伯语、日语、印地语、斯瓦希里语等 - **后处理效果** — 音高变换、混响、延迟、合唱、压缩和滤波器 - **富有表现力的语音** — 通过 Chatterbox Turbo 支持副语言标签如 `[laugh]`、`[sigh]`、`[gasp]` - **无长度限制** — 自动分块并交叉淡入淡出,适用于脚本、文章和章节 - **故事编辑器** — 多轨道时间线,用于对话、播客和叙事 - **API 优先** — REST API,便于将语音合成集成到您自己的项目中 - **原生性能** — 使用 Tauri(Rust)构建,而非 Electron - **随处运行** — macOS(MLX/Metal)、Windows(CUDA)、Linux、AMD ROCm、Intel Arc、Docker ## 下载 | 平台 | 下载链接 | | ----------------- | ------------------------------------------------------ | | macOS (Apple Silicon) | [下载 DMG](https://voicebox.sh/download/mac-arm) | | macOS (Intel) | [下载 DMG](https://voicebox.sh/download/mac-intel) | | Windows | [下载 MSI](https://voicebox.sh/download/windows) | | Docker | `docker compose up` | ## 功能特性 ### 多引擎语音克隆 五个具有不同优势的 TTS 引擎,每次生成时可切换: | 引擎 | 语言数 | 优势 | | ------------------------- | ------ | -------------------------------------------------------------------- | | **Qwen3-TTS** (0.6B / 1.7B) | 10 | 高质量多语言克隆,支持发音指令(“说慢一点”、“轻声说”) | | **LuxTTS** | 英语 | 轻量级(约 1GB 显存),48kHz 输出,CPU 上可达 150 倍实时 | | **Chatterbox Multilingual** | 23 | 最广语言覆盖 — 阿拉伯语、丹麦语、芬兰语、希腊语、希伯来语、印地语、马来语、挪威语、波兰语、斯瓦希里语、瑞典语、土耳其语等 | | **Chatterbox Turbo** | 英语 | 快速 350M 模型,支持副语言情感/声音标签 | | **TADA** (1B / 3B) | 10 | HumeAI 语音语言模型 — 700 秒以上连贯音频,文本-声学双重对齐 | ### 情感与副语言标签 在文本输入中输入 `/` 可插入副语言标签,让模型在语音中即时合成(Chatterbox Turbo): `[laugh]` `[chuckle]` `[gasp]` `[cough]` `[sigh]` `[groan]` `[sniff]` `[shush]` `[clear throat]` ### 后处理效果 8 种音频效果,依赖 Spotify 的 `pedalboard` 库。生成后应用,实时预览,可构建可复用预设。 | 效果 | 描述 | | -------------- | -------------------------------------- | | 音高变换 | 向上或向下最多 12 个半音 | | 混响 | 可配置房间大小、衰减、湿/干混合 | | 延迟 | 带可调整时间、反馈和混合的回声 | | 合唱/镶边 | 调制延迟,产生金属或饱满质感 | | 压缩器 | 动态范围压缩 | | 增益 | 音量调节(-40 至 +40 dB) | | 高通滤波器 | 移除低频 | | 低通滤波器 | 移除高频 | 内置 4 种预设(机器人、广播、回声室、深喉),并支持自定义预设。效果可按配置文件设置为默认。 ### 无限制生成长度 文本自动在句子边界分割,每个片段独立生成后再交叉淡入淡出。支持所有引擎。 - 可配置自动分块限制(100–5,000 字符) - 交叉淡入淡出滑块(0–200ms) - 最大文本长度:50,000 字符 - 智能分割尊重缩写、中文标点及 `[标签]` ### 生成版本 每次生成都支持多个版本并追踪来源: - **原始版本** — 干净的 TTS 输出,始终保留 - **效果版本** — 从任意来源版本应用不同的效果链 - **Take** — 用新种子重新生成以获得变化 - **来源追踪** — 每个版本记录其谱系 - **收藏** — 为常用生成打星标 ### 异步生成队列 生成为非阻塞操作。提交后可立即开始输入下一个内容。 - 串行执行队列防止 GPU 争用 - 实时 SSE 状态流 - 失败生成可重试 - 崩溃后的陈旧生成在启动时自动恢复 ### 语音配置文件管理 - 可从音频文件创建配置文件或直接录音 - 导入/导出配置文件以共享或备份 - 多样本支持以获得更高质量的克隆 - 每个配置文件的默认效果链 - 支持描述和语言标签进行分类组织 ### 故事编辑器 多语音时间线编辑器,适用于对话、播客和叙事。 - 支持拖放的多轨道合成 - 内联音频修剪与分割 - 同步播放头自动播放 - 每个轨道片段可版本锁定 ### 录音与转录 - 内置录音并带有波形可视化 - 系统音频捕获(macOS 与 Windows) - 由 Whisper(包括 Whisper Turbo)驱动的自动转录 - 支持多种格式导出录音 ### 模型管理 - 可卸载单个模型以释放 GPU 显存而不删除下载 - 可通过 `VOICEBOX_MODELS_DIR` 指定自定义模型目录 - 模型文件夹迁移并显示进度 - 提供下载取消/清理 UI ### GPU 支持 | 平台 | 后端 | 说明 | | -------------------- | ----------- | ---------------------------------------------- | | macOS (Apple Silicon) | MLX (Metal) | 通过神经引擎实现 4–5 倍加速 | | Windows / Linux (NVIDIA) | PyTorch (CUDA) | 应用内自动下载 CUDA 二进制文件 | | Linux (AMD) | PyTorch (ROCm) | 自动配置 HSA_OVERRIDE_GFX_VERSION | | Windows (任意 GPU) | DirectML | 通用 Windows GPU 支持 | | Intel Arc | IPEX/XPU | Intel 独立 GPU 加速 | | 任意平台 | CPU | 通用支持,但速度较慢 | ## API Voicebox 提供完整的 REST API,便于将语音合成集成到您自己的应用中。 ``` # 生成语音 curl -X POST http://localhost:17493/generate \ -H "Content-Type: application/json" \ -d '{"text": "Hello world", "profile_id": "abc123", "language": "en"}' # 列出语音配置文件 curl http://localhost:17493/profiles # 创建配置文件 curl -X POST http://localhost:17493/profiles \ -H "Content-Type: application/json" \ -d '{"name": "My Voice", "language": "en"}' ``` **适用场景:** 游戏对话、播客制作、无障碍工具、语音助手、内容自动化。 完整 API 文档请访问 `http://localhost:17493/docs`。 ## 技术栈 | 层级 | 技术 | | ------------ | ----------------------------------------- | | 桌面应用 | Tauri (Rust) | | 前端 | React, TypeScript, Tailwind CSS | | 状态管理 | Zustand, React Query | | 后端 | FastAPI (Python) | | TTS 引擎 | Qwen3-TTS、LuxTTS、Chatterbox、Chatterbox Turbo、TADA | | 效果 | Pedalboard (Spotify) | | 转录 | Whisper / Whisper Turbo (PyTorch 或 MLX) | | 推理 | MLX (Apple Silicon) / PyTorch (CUDA/ROCm/XPU/CPU) | | 数据库 | SQLite | | 音频 | WaveSurfer.js、librosa | ## 路线图 | 功能 | 说明 | | -------------------- | ---------------------------------------- | **实时流式传输** | 生成时逐字流式输出音频 | | **语音设计** | 通过文本描述创建新语音 | | **更多模型** | XTTS、Bark 及其他开源语音模型 | | **插件架构** | 支持自定义模型与效果插件 | | **移动端伴侣应用** | 通过手机控制 Voicebox | ## 开发 详见 [CONTRIBUTING.md](CONTRIBUTING.md) 获取详细的环境搭建与贡献指南。 ### 快速开始 ``` git clone https://github.com/jamiepine/voicebox.git cd voicebox just setup # creates Python venv, installs all deps just dev # starts backend + desktop app ``` 安装 [just](https://github.com/casey/just):`brew install just` 或 `cargo install just`。运行 `just --list` 查看所有命令。 **前置条件:** [Bun](https://bun.sh)、[Rust](https://rustup.rs)、[Python 3.11+](https://python.org)、[Tauri 前置依赖](https://v2.tauri.app/start/prerequisites/) 和 [Xcode](https://developer.apple.com/xcode/)(macOS)。 ### 本地构建 ``` just build # Build CPU server binary + Tauri app just build-local # (Windows) Build CPU + CUDA server binaries + Tauri app ``` ### 添加新的语音模型 多引擎架构使添加新的 TTS 引擎变得简单直接。一份 [逐步指南](docs/content/docs/developer/tts-engines.mdx) 涵盖完整流程:依赖调研、后端协议实现、前端集成以及 PyInstaller 打包。 该指南针对 AI 编码代理进行了优化。智能 [代理技能](.agents/skills/add-tts-engine/SKILL.md) 可根据模型名称自动完成整个集成过程 — 您只需在本地测试构建即可。 ### 项目结构 ``` voicebox/ ├── app/ # Shared React frontend ├── tauri/ # Desktop app (Tauri + Rust) ├── web/ # Web deployment ├── backend/ # Python FastAPI server ├── landing/ # Marketing website └── scripts/ # Build & release scripts ``` ## 贡献 欢迎贡献!请参考 [CONTRIBUTING.md](CONTRIBUTING.md) 中的指南。 1. Fork 本仓库 2. 创建功能分支 3. 提交更改 4. 发起 Pull Request ## 安全 发现安全漏洞?请负责任地报告。详见 [SECURITY.md](SECURITY.md)。 ## 许可证 MIT License — 详见 [LICENSE](LICENSE)。标签:23种语言, 5种TTS引擎, API哈希动态解析, Chatterbox, DNS解析, Docker, HumeAI, LuxTTS, Qwen3-TTS, REST API, Rust, Tauri, TTS, Vectored Exception Handling, 凭据扫描, 压缩, 原生应用, 变调, 可视化界面, 合唱, 后处理效果, 多语言支持, 多轨编辑, 安全测试框架, 安全防御评估, 延迟, 开源项目, 播客制作, 旁白合成, 无需云端, 时间线编辑, 有声书生成, 本地优先, 混响, 滤波器, 网络安全, 网络流量审计, 自动化攻击, 语音克隆, 语音合成, 跨平台应用, 逆向工具, 隐私保护