jianchang512/pyvideotrans

GitHub: jianchang512/pyvideotrans

开源视频翻译配音一体化工具，支持语音识别、字幕翻译、AI配音和声音克隆的完整工作流。

Stars: 18140 | Forks: 2247

# pyVideoTrans

**强大的开源视频翻译 / 音频转录 / AI 配音 / 字幕翻译工具** [中文](docs/README_CN.md) | [**文档**](https://pyvideotrans.com) | [**在线问答**](https://bbs.pyvideotrans.com) [![License](https://img.shields.io/badge/License-GPL_v3-blue.svg)](LICENSE) [![Python](https://img.shields.io/badge/Python-3.10%2B-green.svg)](https://www.python.org/) [![Platform](https://img.shields.io/badge/Platform-Windows%20%7C%20macOS%20%7C%20Linux-lightgrey.svg)]()

**pyVideoTrans** 致力于无缝将视频从一种语言转换为另一种语言，提供包含语音识别、字幕翻译、多角色配音和音视频同步的完整工作流。它既支持本地离线部署，也支持多种主流在线 API。

## ✨ 核心功能 - **🎥 全自动视频翻译**：一键工作流：语音识别 (ASR) -> 字幕翻译 -> 语音合成 (TTS) -> 视频合成。 - **🎙️ 音频转录 / 字幕生成**：批量将音频/视频转换为 SRT 字幕，支持**说话人分离 (Speaker Diarization)** 以区分不同角色。 - **🗣️ 多角色 AI 配音**：为不同的说话人分配不同的 AI 配音声音。 - **🧬 声音克隆**：集成 **F5-TTS, CosyVoice, GPT-SoVITS** 等模型，实现零样本声音克隆。 - **🧠 强大的模型支持**： - **ASR**：Faster-Whisper (本地), OpenAI Whisper, 阿里 Qwen, 字节跳动 Volcano, Azure, Google 等。 - **LLM 翻译**：DeepSeek, ChatGPT, Claude, Gemini, MiniMax, Ollama (本地), 阿里百炼等。 - **TTS**：Edge-TTS (免费), OpenAI, Azure, Minimaxi, ChatTTS, ChatterBox 等。 - **🖥️ 交互式编辑**：支持在每个阶段（识别、翻译、配音）暂停和人工校对，以确保准确性。 - **🛠️ 实用工具集**：包含人声分离、视频/字幕合并、音视频对齐、文稿匹配等辅助工具。 - **💻 命令行界面 (CLI)**：支持无头模式运行，便于服务器部署或批量处理。 unnamed

## 🚀 快速开始 (Windows 用户) 我们为 Windows 10/11 用户提供预打包的 `.exe` 版本，无需配置 Python 环境。 1. **下载**：[点击下载最新预打包版本](https://github.com/jianchang512/pyvideotrans/releases) 2. **解压**：将压缩文件解压到某个路径（例如 `D:\pyVideoTrans`）。 3. **运行**：双击文件夹内的 `sp.exe` 启动软件。 ## 🛠️ 源码部署 (macOS / Linux / Windows 开发者) 推荐使用 **[`uv`](https://docs.astral.sh/uv/)** 进行包管理，以获得更快的速度和更好的环境隔离。 ### 1. 前置条件 * **Python**：推荐版本 3.10 --> 3.12 * **FFmpeg**：必须安装并配置到环境变量中。 * **macOS**：`brew install ffmpeg libsndfile git` * **Linux (Ubuntu/Debian)**：`sudo apt-get install ffmpeg libsndfile1-dev` * **Windows**：[下载 FFmpeg](https://ffmpeg.org/download.html) 并配置 Path，或者直接将 `ffmpeg.exe` 和 `ffprobe.exe` 放入项目目录。 ### 2. 安装 uv (如未安装) ``` # macOS/Linux curl -LsSf https://astral.sh/uv/install.sh | sh # Windows (PowerShell) powershell -c "irm https://astral.sh/uv/install.ps1 | iex" ``` ### 3. 克隆并安装 ``` # 1. Clone 仓库 (确保路径中没有空格/中文字符) git clone https://github.com/jianchang512/pyvideotrans.git cd pyvideotrans # 2. 安装依赖 (uv 自动同步环境) uv sync # 如果需要 qwen-tts 和 qwen-asr 的本地通道，请执行 `uv sync --extra qwen-tts --extra qwen-asr` ``` ### 4. 启动软件 **启动 GUI**： ``` uv run sp.py ``` **使用 CLI**： ``` # 视频翻译示例 uv run cli.py --task vtv --name "./video.mp4" --source_language_code zh --target_language_code en # 音频转字幕示例 uv run cli.py --task stt --name "./audio.wav" --model_name large-v3 ``` ### 5. (可选) GPU 加速配置如果你有 NVIDIA 显卡，执行以下命令安装支持 CUDA 的 PyTorch 版本： ``` # 卸载 CPU 版本 uv remove torch torchaudio # 安装 CUDA 版本 (示例为 CUDA 12.x) uv add torch==2.7 torchaudio==2.7 --index-url https://download.pytorch.org/whl/cu128 uv add nvidia-cublas-cu12 nvidia-cudnn-cu12 ``` ## 🧩 支持的渠道与模型 (部分) | 类别 | 渠道/模型 | 描述 | | :--- | :--- | :--- | | **ASR (语音识别)** | **Faster-Whisper** (本地) | 推荐，速度快，精度高 | | | WhisperX / Parakeet | 支持时间戳对齐和说话人分离 | | | 阿里 Qwen3-ASR / 字节跳动 Volcano | 在线 API，中文效果优异 | | **翻译 (LLM/MT)** | **DeepSeek** / ChatGPT | 支持上下文理解，翻译更自然 | | | MiniMax AI | MiniMax M2.7 LLM，最新旗舰模型，兼容 OpenAI | | | Google / Microsoft | 传统机器翻译，速度快 | | | Ollama / M2M100 | 完全本地离线翻译 | | **TTS (语音合成)** | **Edge-TTS** | 微软免费接口，效果自然 | | | **F5-TTS / CosyVoice** | 支持**声音克隆**，需本地部署 | | | GPT-SoVITS / ChatTTS | 高质量开源 TTS | | | 302.AI / OpenAI / Azure | 高质量商业 API | ## 📚 文档与支持 * **官方文档**：[https://pyvideotrans.com](https://pyvideotrans.com) (包含详细教程、API 配置指南、常见问题) * **在线问答社区**：[https://bbs.pyvideotrans.com](https://bbs.pyvideotrans.com) (提交错误日志以获取自动化 AI 分析和解答) ## ⚠️ 免责声明本软件是一个开源、免费、非商业项目。用户需自行承担使用本软件产生的任何法律后果（包括但不限于调用第三方 API 或处理受版权保护的视频内容）。请遵守当地法律法规及相关服务提供商的使用条款。 ## 🙏 致谢本项目主要依赖以下开源项目 (部分)： * [FFmpeg](https://github.com/FFmpeg/FFmpeg) * [PySide6](https://pypi.org/project/PySide6/) * [faster-whisper](https://github.com/SYSTRAN/faster-whisper) * [openai-whisper](https://github.com/openai/whisper) * [edge-tts](https://github.com/rany2/edge-tts) * [F5-TTS](https://github.com/SWivid/F5-TTS) * [CosyVoice](https://github.com/FunAudioLLM/CosyVoice) *由 [jianchang512](https://github.com/jianchang512) 创建*

标签：AI配音, ASR, ChatGPT, DLL 劫持, F5-TTS, GPT-SoVITS, LLM评估, Ollama, Petitpotam, Promptflow, Python, SRT字幕, TTS, Whisper, 二进制发布, 人声分离, 内容创作, 声音克隆, 多语言翻译, 大语言模型, 字幕生成, 字幕翻译, 开源工具, 影视后期, 无后门, 深度学习, 网络调试, 翻译软件, 自动化, 视频处理, 视频翻译, 语音合成, 语音识别, 逆向工具, 配音工具