jianchang512/pyvideotrans
GitHub: jianchang512/pyvideotrans
开源视频翻译配音一体化工具,支持语音识别、字幕翻译、AI配音和声音克隆的完整工作流。
Stars: 16754 | Forks: 1982
# pyVideoTrans
## ✨ 核心功能
- **🎥 全自动视频翻译**:一键工作流:语音识别 (ASR) -> 字幕翻译 -> 语音合成 (TTS) -> 视频合成。
- **🎙️ 音频转录 / 字幕生成**:批量将音频/视频转换为 SRT 字幕,支持**说话人分离 (Speaker Diarization)** 以区分不同角色。
- **🗣️ 多角色 AI 配音**:为不同的说话人分配不同的 AI 配音声音。
- **🧬 声音克隆**:集成 **F5-TTS, CosyVoice, GPT-SoVITS** 等模型,实现零样本声音克隆。
- **🧠 强大的模型支持**:
- **ASR**:Faster-Whisper (本地), OpenAI Whisper, 阿里 Qwen, 字节跳动 Volcano, Azure, Google 等。
- **LLM 翻译**:DeepSeek, ChatGPT, Claude, Gemini, MiniMax, Ollama (本地), 阿里百炼 等。
- **TTS**:Edge-TTS (免费), OpenAI, Azure, Minimaxi, ChatTTS, ChatterBox 等。
- **🖥️ 交互式编辑**:支持在每个阶段(识别、翻译、配音)暂停和人工校对,以确保准确性。
- **🛠️ 实用工具集**:包含人声分离、视频/字幕合并、音视频对齐、文稿匹配等辅助工具。
- **💻 命令行界面 (CLI)**:支持无头模式运行,便于服务器部署或批量处理。
## 🚀 快速开始 (Windows 用户)
我们为 Windows 10/11 用户提供预打包的 `.exe` 版本,无需配置 Python 环境。
1. **下载**:[点击下载最新预打包版本](https://github.com/jianchang512/pyvideotrans/releases)
2. **解压**:将压缩文件解压到某个路径(例如 `D:\pyVideoTrans`)。
3. **运行**:双击文件夹内的 `sp.exe` 启动软件。
## 🛠️ 源码部署 (macOS / Linux / Windows 开发者)
推荐使用 **[`uv`](https://docs.astral.sh/uv/)** 进行包管理,以获得更快的速度和更好的环境隔离。
### 1. 前置条件
* **Python**:推荐版本 3.10 --> 3.12
* **FFmpeg**:必须安装并配置到环境变量中。
* **macOS**:`brew install ffmpeg libsndfile git`
* **Linux (Ubuntu/Debian)**:`sudo apt-get install ffmpeg libsndfile1-dev`
* **Windows**:[下载 FFmpeg](https://ffmpeg.org/download.html) 并配置 Path,或者直接将 `ffmpeg.exe` 和 `ffprobe.exe` 放入项目目录。
### 2. 安装 uv (如未安装)
```
# macOS/Linux
curl -LsSf https://astral.sh/uv/install.sh | sh
# Windows (PowerShell)
powershell -c "irm https://astral.sh/uv/install.ps1 | iex"
```
### 3. 克隆并安装
```
# 1. Clone 仓库 (确保路径中没有空格/中文字符)
git clone https://github.com/jianchang512/pyvideotrans.git
cd pyvideotrans
# 2. 安装依赖 (uv 自动同步环境)
uv sync
# 如果需要 qwen-tts 和 qwen-asr 的本地通道,请执行 `uv sync --extra qwen-tts --extra qwen-asr`
```
### 4. 启动软件
**启动 GUI**:
```
uv run sp.py
```
**使用 CLI**:
```
# 视频翻译示例
uv run cli.py --task vtv --name "./video.mp4" --source_language_code zh --target_language_code en
# 音频转字幕示例
uv run cli.py --task stt --name "./audio.wav" --model_name large-v3
```
### 5. (可选) GPU 加速配置
如果你有 NVIDIA 显卡,执行以下命令安装支持 CUDA 的 PyTorch 版本:
```
# 卸载 CPU 版本
uv remove torch torchaudio
# 安装 CUDA 版本 (示例为 CUDA 12.x)
uv add torch==2.7 torchaudio==2.7 --index-url https://download.pytorch.org/whl/cu128
uv add nvidia-cublas-cu12 nvidia-cudnn-cu12
```
## 🧩 支持的渠道与模型 (部分)
| 类别 | 渠道/模型 | 描述 |
| :--- | :--- | :--- |
| **ASR (语音识别)** | **Faster-Whisper** (本地) | 推荐,速度快,精度高 |
| | WhisperX / Parakeet | 支持时间戳对齐和说话人分离 |
| | 阿里 Qwen3-ASR / 字节跳动 Volcano | 在线 API,中文效果优异 |
| **翻译 (LLM/MT)** | **DeepSeek** / ChatGPT | 支持上下文理解,翻译更自然 |
| | MiniMax AI | MiniMax M2.7 LLM,最新旗舰模型,兼容 OpenAI |
| | Google / Microsoft | 传统机器翻译,速度快 |
| | Ollama / M2M100 | 完全本地离线翻译 |
| **TTS (语音合成)** | **Edge-TTS** | 微软免费接口,效果自然 |
| | **F5-TTS / CosyVoice** | 支持**声音克隆**,需本地部署 |
| | GPT-SoVITS / ChatTTS | 高质量开源 TTS |
| | 302.AI / OpenAI / Azure | 高质量商业 API |
## 📚 文档与支持
* **官方文档**:[https://pyvideotrans.com](https://pyvideotrans.com) (包含详细教程、API 配置指南、常见问题)
* **在线问答社区**:[https://bbs.pyvideotrans.com](https://bbs.pyvideotrans.com) (提交错误日志以获取自动化 AI 分析和解答)
## ⚠️ 免责声明
本软件是一个开源、免费、非商业项目。用户需自行承担使用本软件产生的任何法律后果(包括但不限于调用第三方 API 或处理受版权保护的视频内容)。请遵守当地法律法规及相关服务提供商的使用条款。
## 🙏 致谢
本项目主要依赖以下开源项目 (部分):
* [FFmpeg](https://github.com/FFmpeg/FFmpeg)
* [PySide6](https://pypi.org/project/PySide6/)
* [faster-whisper](https://github.com/SYSTRAN/faster-whisper)
* [openai-whisper](https://github.com/openai/whisper)
* [edge-tts](https://github.com/rany2/edge-tts)
* [F5-TTS](https://github.com/SWivid/F5-TTS)
* [CosyVoice](https://github.com/FunAudioLLM/CosyVoice)
*由 [jianchang512](https://github.com/jianchang512) 创建*
**强大的开源视频翻译 / 音频转录 / AI 配音 / 字幕翻译工具**
[中文](docs/README_CN.md) | [**文档**](https://pyvideotrans.com) | [**在线问答**](https://bbs.pyvideotrans.com)
[](LICENSE) [](https://www.python.org/) []()
**pyVideoTrans** 致力于无缝将视频从一种语言转换为另一种语言,提供包含语音识别、字幕翻译、多角色配音和音视频同步的完整工作流。它既支持本地离线部署,也支持多种主流在线 API。
标签:AI配音, ASR, ChatGPT, DLL 劫持, F5-TTS, GPT-SoVITS, LLM评估, Ollama, Petitpotam, Promptflow, Python, SRT字幕, TTS, Whisper, 二进制发布, 人声分离, 内容创作, 声音克隆, 多语言翻译, 大语言模型, 字幕生成, 字幕翻译, 开源工具, 影视后期, 无后门, 深度学习, 网络调试, 翻译软件, 自动化, 视频处理, 视频翻译, 语音合成, 语音识别, 逆向工具, 配音工具