
# 逐帧连接世界

[**English**](/README.md)|[**简体中文**](/translations/README.zh.md)|[**繁體中文**](

# 连接世界,逐帧呈现

[**English**](/README.md)|[**简体中文**](/translations/README.zh.md)|[**繁體中文**](/translations/README.zh-TW.md)|[**日本語**](/translations/README.ja.md)|[**Español**](/translations/README.es.md)|[**Русский**](/translations/README.ru.md)|[**Français**](/translations/README.fr.md)
## 🌟 概述 ([立即体验 VL!](https://videolingo.io))
VideoLingo 是一款集视频翻译、本地化和配音于一体的工具,旨在生成 Netflix 级别的字幕。它消除了生硬的机器翻译和多行字幕,同时加入了高质量的配音,从而打破语言障碍,实现全球知识共享。
主要特性:
- 🎥 通过 yt-dlp 下载 YouTube 视频
- **🎙️ 使用 WhisperX 实现单词级别且低幻觉的字幕识别**
- **📝 基于 NLP 和 AI 驱动的字幕分割**
- **📚 自定义 + AI 生成的术语库,确保翻译连贯**
- **🔄 采用三步翻译-反思-优化的流程,达到影视级质量**
- **✅ 仅限 Netflix 标准、单行字幕**
- **🗣️ 使用 GPT-SoVITS、Azure、OpenAI 等进行配音**
- 🚀 在 Streamlit 中一键启动和处理
- 🌍 Streamlit UI 支持多种语言
- 📝 详细的日志记录,支持断点续传
- 🔍 带有 API 自动获取的模型搜索框 —— 从提供商的完整模型列表中搜索和过滤
- ⏯️ 任务控制 —— 在任何步骤暂停、继续或停止处理
与同类项目的区别:**仅限单行字幕、卓越的翻译质量、无缝的配音体验**
## 🎥 演示
|
### 双语字幕
https://github.com/user-attachments/assets/a5c3d8d1-2b29-4ba9-b0d0-25896829d951
|
### Cosy2 语音克隆
https://github.com/user-attachments/assets/e065fe4c-3694-477f-b4d6-316917df7c0a
|
### 使用我的声音进行 GPT-SoVITS 配音
https://github.com/user-attachments/assets/47d965b2-b4ab-4a0b-9d08-b49a7bf3508c
|
### 语言支持
**输入语言支持(持续增加中):**
🇺🇸 英语 🤩 | 🇷🇺 俄语 😊 | 🇫🇷 法语 🤩 | 🇩🇪 德语 🤩 | 🇮🇹 意大利语 🤩 | 🇪🇸 西班牙语 🤩 | 🇯🇵 日语 😐 | 🇨🇳 中文* 😊
**翻译支持所有语言,而配音语言取决于所选的 TTS 方式。**
## 安装
遇到问题?请点击[**此处**](https://share.fastgpt.in/chat/share?shareId=066w11n3r9aq6879r4z0v9rh)与我们的免费在线 AI 智能体交流以获取帮助。
### 选项 A:使用 uv(推荐,无需 Anaconda)
[uv](https://docs.astral.sh/uv/) 会自动下载 Python 3.10 并创建一个隔离环境 —— 无需您自己安装 Python 或 Anaconda。
1. 克隆仓库
```
git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo
```
2. 一键设置(安装 uv + Python 3.10 + 所有依赖项)
```
python setup_env.py
```
3. 启动应用
```
.venv\Scripts\streamlit run st.py # Windows
.venv/bin/streamlit run st.py # macOS / Linux
```
或者在 Windows 上双击 `OneKeyStart_uv.bat`。
### 选项 B:使用 Conda
点击展开 Conda 安装步骤
1. 克隆仓库
```
git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo
```
2. 安装依赖项(需要 `python=3.10`)
```
conda create -n videolingo python=3.10.0 -y
conda activate videolingo
python install.py
```
3. 启动应用
```
streamlit run st.py
```
### Docker
另外,您也可以使用 Docker(需要 CUDA 12.4 且 NVIDIA 驱动版本 >550),详见 [Docker 文档](/docs/pages/docs/docker.en-US.md):
```
docker build -t videolingo .
docker run -d -p 8501:8501 --gpus all videolingo
```
## API
VideoLingo 支持 OpenAI-Like API 格式和各种 TTS 接口:
- LLM: `claude-sonnet-4.6`, `gpt-5.4`, `gemini-3.1-pro`, `deepseek-v3`, `grok-4.1`, ...(按质量排序;追求性价比可选择 `gemini-3-flash` 或 `gpt-5.4-mini`)
- WhisperX: 在本地运行 whisperX (large-v3) 或使用 302.ai API
- TTS: `azure-tts`, `openai-tts`, `siliconflow-fishtts`, **`fish-tts`**, `GPT-SoVITS`, `edge-tts`, `*custom-tts`(您可以在 custom_tts.py 中修改您自己的 TTS!)
有关详细的安装、API 配置和批处理模式说明,请参阅文档:[英文](/docs/pages/docs/start.en-US.md) | [中文](/docs/pages/docs/start.zh-CN.md)
## 当前限制
1. WhisperX 的转录性能可能会受到视频背景噪音的影响,因为它使用 wav2vac 模型进行对齐。对于背景音乐嘈杂的视频,请启用人声分离增强。此外,以数字或特殊字符结尾的字幕可能会被提前截断,因为 wav2vac 无法将数字字符(例如 "1")映射为其口语形式("one")。
2. 由于对响应的 JSON 格式要求非常严格,使用较弱的模型可能会导致处理过程中出现错误(我已经尽力去编写 prompt 了😊)。如果发生此错误,请删除 `output` 文件夹并使用其他 LLM 重试,否则重复执行会读取之前错误的响应从而导致相同的错误。
3. 由于不同语言之间的语速和语调差异,以及翻译步骤的影响,配音功能可能无法达到 100% 完美。然而,本项目已经对语速进行了大量的工程处理,以确保尽可能最佳的配音效果。
4. **多语言视频转录识别将仅保留主要语言**。这是因为 whisperX 在强制对齐单词级字幕时使用的是针对单一语言的专用模型,并且会删除无法识别的语言。
5. **目前无法分别为多个角色配音**,因为 whisperX 的说话人区分能力还不够可靠。
## 📄 许可证
本项目采用 Apache 2.0 许可证授权。特别感谢以下开源项目所做的贡献:
[whisperX](https://github.com/m-bain/whisperX), [yt-dlp](https://github.com/yt-dlp/yt-dlp), [json_repair](https://github.com/mangiucugna/json_repair), [BELLE](https://github.com/LianjiaTech/BELLE)
## 📬 联系我
- 在 GitHub 上提交 [Issues](https://github.com/Huanshere/VideoLingo/issues) 或 [Pull Requests](https://github.com/Huanshere/VideoLingo/pulls)
- 在 Twitter 上私信我:[@Huanshere](https://twitter.com/Huanshere)
- 发送邮件至:team@videolingo.io
## ⭐ Star 历史
[](https://star-history.com/#Huanshere/VideoLingo&Timeline)
如果您觉得 VideoLingo 对您有帮助,请给我点个 ⭐️!
标签:AI字幕, AI配音, GPT-SoVITS, Kubernetes, Netflix级字幕, NLP, Petitpotam, Python, Streamlit, Vectored Exception Handling, WhisperX, yt-dlp, 人工智能, 单行字幕, 多语言翻译, 字幕切割, 字幕对齐, 开源, 无后门, 术语库, 深度学习, 用户模式Hook绕过, 自动配音, 视频处理, 视频搬运, 视频翻译, 访问控制, 语音识别, 请求拦截, 跨语言知识共享, 逆向工具