Huanshere/VideoLingo

GitHub: Huanshere/VideoLingo

一款集语音识别、字幕切割、AI 翻译和配音于一体的视频字幕自动化工具，旨在生成 Netflix 级别的高质量单行双语字幕。

Stars: 17778 | Forks: 1962

# 逐帧连接世界

[**English**](/README.md)｜[**简体中文**](/translations/README.zh.md)｜[**繁體中文**](

# 连接世界，逐帧呈现

[**English**](/README.md)｜[**简体中文**](/translations/README.zh.md)｜[**繁體中文**](/translations/README.zh-TW.md)｜[**日本語**](/translations/README.ja.md)｜[**Español**](/translations/README.es.md)｜[**Русский**](/translations/README.ru.md)｜[**Français**](/translations/README.fr.md)

## 🌟 概述 ([立即体验 VL！](https://videolingo.io)) VideoLingo 是一款集视频翻译、本地化和配音于一体的工具，旨在生成 Netflix 级别的字幕。它消除了生硬的机器翻译和多行字幕，同时加入了高质量的配音，从而打破语言障碍，实现全球知识共享。主要特性： - 🎥 通过 yt-dlp 下载 YouTube 视频 - **🎙️ 使用 WhisperX 实现单词级别且低幻觉的字幕识别** - **📝 基于 NLP 和 AI 驱动的字幕分割** - **📚 自定义 + AI 生成的术语库，确保翻译连贯** - **🔄 采用三步翻译-反思-优化的流程，达到影视级质量** - **✅ 仅限 Netflix 标准、单行字幕** - **🗣️ 使用 GPT-SoVITS、Azure、OpenAI 等进行配音** - 🚀 在 Streamlit 中一键启动和处理 - 🌍 Streamlit UI 支持多种语言 - 📝 详细的日志记录，支持断点续传 - 🔍 带有 API 自动获取的模型搜索框 —— 从提供商的完整模型列表中搜索和过滤 - ⏯️ 任务控制 —— 在任何步骤暂停、继续或停止处理与同类项目的区别：**仅限单行字幕、卓越的翻译质量、无缝的配音体验** ## 🎥 演示

### 双语字幕 https://github.com/user-attachments/assets/a5c3d8d1-2b29-4ba9-b0d0-25896829d951

### Cosy2 语音克隆 https://github.com/user-attachments/assets/e065fe4c-3694-477f-b4d6-316917df7c0a

### 使用我的声音进行 GPT-SoVITS 配音 https://github.com/user-attachments/assets/47d965b2-b4ab-4a0b-9d08-b49a7bf3508c

### 语言支持 **输入语言支持（持续增加中）：** 🇺🇸 英语 🤩 | 🇷🇺 俄语 😊 | 🇫🇷 法语 🤩 | 🇩🇪 德语 🤩 | 🇮🇹 意大利语 🤩 | 🇪🇸 西班牙语 🤩 | 🇯🇵 日语 😐 | 🇨🇳 中文* 😊 **翻译支持所有语言，而配音语言取决于所选的 TTS 方式。** ## 安装遇到问题？请点击[**此处**](https://share.fastgpt.in/chat/share?shareId=066w11n3r9aq6879r4z0v9rh)与我们的免费在线 AI 智能体交流以获取帮助。 ### 选项 A：使用 uv（推荐，无需 Anaconda） [uv](https://docs.astral.sh/uv/) 会自动下载 Python 3.10 并创建一个隔离环境 —— 无需您自己安装 Python 或 Anaconda。 1. 克隆仓库 ``` git clone https://github.com/Huanshere/VideoLingo.git cd VideoLingo ``` 2. 一键设置（安装 uv + Python 3.10 + 所有依赖项） ``` python setup_env.py ``` 3. 启动应用 ``` .venv\Scripts\streamlit run st.py # Windows .venv/bin/streamlit run st.py # macOS / Linux ``` 或者在 Windows 上双击 `OneKeyStart_uv.bat`。 ### 选项 B：使用 Conda

点击展开 Conda 安装步骤

1. 克隆仓库 ``` git clone https://github.com/Huanshere/VideoLingo.git cd VideoLingo ``` 2. 安装依赖项（需要 `python=3.10`） ``` conda create -n videolingo python=3.10.0 -y conda activate videolingo python install.py ``` 3. 启动应用 ``` streamlit run st.py ```

### Docker 另外，您也可以使用 Docker（需要 CUDA 12.4 且 NVIDIA 驱动版本 >550），详见 [Docker 文档](/docs/pages/docs/docker.en-US.md)： ``` docker build -t videolingo . docker run -d -p 8501:8501 --gpus all videolingo ``` ## API VideoLingo 支持 OpenAI-Like API 格式和各种 TTS 接口： - LLM: `claude-sonnet-4.6`, `gpt-5.4`, `gemini-3.1-pro`, `deepseek-v3`, `grok-4.1`, ...（按质量排序；追求性价比可选择 `gemini-3-flash` 或 `gpt-5.4-mini`） - WhisperX: 在本地运行 whisperX (large-v3) 或使用 302.ai API - TTS: `azure-tts`, `openai-tts`, `siliconflow-fishtts`, **`fish-tts`**, `GPT-SoVITS`, `edge-tts`, `*custom-tts`（您可以在 custom_tts.py 中修改您自己的 TTS！）有关详细的安装、API 配置和批处理模式说明，请参阅文档：[英文](/docs/pages/docs/start.en-US.md) | [中文](/docs/pages/docs/start.zh-CN.md) ## 当前限制 1. WhisperX 的转录性能可能会受到视频背景噪音的影响，因为它使用 wav2vac 模型进行对齐。对于背景音乐嘈杂的视频，请启用人声分离增强。此外，以数字或特殊字符结尾的字幕可能会被提前截断，因为 wav2vac 无法将数字字符（例如 "1"）映射为其口语形式（"one"）。 2. 由于对响应的 JSON 格式要求非常严格，使用较弱的模型可能会导致处理过程中出现错误（我已经尽力去编写 prompt 了😊）。如果发生此错误，请删除 `output` 文件夹并使用其他 LLM 重试，否则重复执行会读取之前错误的响应从而导致相同的错误。 3. 由于不同语言之间的语速和语调差异，以及翻译步骤的影响，配音功能可能无法达到 100% 完美。然而，本项目已经对语速进行了大量的工程处理，以确保尽可能最佳的配音效果。 4. **多语言视频转录识别将仅保留主要语言**。这是因为 whisperX 在强制对齐单词级字幕时使用的是针对单一语言的专用模型，并且会删除无法识别的语言。 5. **目前无法分别为多个角色配音**，因为 whisperX 的说话人区分能力还不够可靠。 ## 📄 许可证本项目采用 Apache 2.0 许可证授权。特别感谢以下开源项目所做的贡献： [whisperX](https://github.com/m-bain/whisperX), [yt-dlp](https://github.com/yt-dlp/yt-dlp), [json_repair](https://github.com/mangiucugna/json_repair), [BELLE](https://github.com/LianjiaTech/BELLE) ## 📬 联系我 - 在 GitHub 上提交 [Issues](https://github.com/Huanshere/VideoLingo/issues) 或 [Pull Requests](https://github.com/Huanshere/VideoLingo/pulls) - 在 Twitter 上私信我：[@Huanshere](https://twitter.com/Huanshere) - 发送邮件至：team@videolingo.io ## ⭐ Star 历史 [![Star History Chart](https://api.star-history.com/svg?repos=Huanshere/VideoLingo&type=Timeline)](https://star-history.com/#Huanshere/VideoLingo&Timeline)

如果您觉得 VideoLingo 对您有帮助，请给我点个 ⭐️！

标签：AI字幕, AI配音, GPT-SoVITS, Kubernetes, Netflix级字幕, NLP, Petitpotam, Python, Streamlit, Vectored Exception Handling, WhisperX, yt-dlp, 人工智能, 单行字幕, 多语言翻译, 字幕切割, 字幕对齐, 开源, 无后门, 术语库, 深度学习, 用户模式Hook绕过, 自动配音, 视频处理, 视频搬运, 视频翻译, 访问控制, 语音识别, 请求拦截, 跨语言知识共享, 逆向工具