Huanshere/VideoLingo

GitHub: Huanshere/VideoLingo

一款集语音识别、字幕切割、AI 翻译和配音于一体的视频字幕自动化工具,旨在生成 Netflix 级别的高质量单行双语字幕。

Stars: 16465 | Forks: 1720

VideoLingo Logo # 逐帧连接世界 Huanshere%2FVideoLingo | Trendshift [**English**](/README.md)|[**简体中文**](/translations/README.zh.md)|[**繁體中文**](
VideoLingo Logo # 连接世界,逐帧呈现 Huanshere%2FVideoLingo | Trendshift [**English**](/README.md)|[**简体中文**](/translations/README.zh.md)|[**繁體中文**](/translations/README.zh-TW.md)|[**日本語**](/translations/README.ja.md)|[**Español**](/translations/README.es.md)|[**Русский**](/translations/README.ru.md)|[**Français**](/translations/README.fr.md)
## 🌟 概述 ([立即体验 VL!](https://videolingo.io)) VideoLingo 是一款集视频翻译、本地化和配音于一体的工具,旨在生成 Netflix 级别的字幕。它消除了生硬的机器翻译和多行字幕,同时加入了高质量的配音,从而打破语言障碍,实现全球知识共享。 主要特性: - 🎥 通过 yt-dlp 下载 YouTube 视频 - **🎙️ 使用 WhisperX 实现单词级别且低幻觉的字幕识别** - **📝 基于 NLP 和 AI 驱动的字幕分割** - **📚 自定义 + AI 生成的术语库,确保翻译连贯** - **🔄 采用三步翻译-反思-优化的流程,达到影视级质量** - **✅ 仅限 Netflix 标准、单行字幕** - **🗣️ 使用 GPT-SoVITS、Azure、OpenAI 等进行配音** - 🚀 在 Streamlit 中一键启动和处理 - 🌍 Streamlit UI 支持多种语言 - 📝 详细的日志记录,支持断点续传 - 🔍 带有 API 自动获取的模型搜索框 —— 从提供商的完整模型列表中搜索和过滤 - ⏯️ 任务控制 —— 在任何步骤暂停、继续或停止处理 与同类项目的区别:**仅限单行字幕、卓越的翻译质量、无缝的配音体验** ## 🎥 演示
### 双语字幕 https://github.com/user-attachments/assets/a5c3d8d1-2b29-4ba9-b0d0-25896829d951 ### Cosy2 语音克隆 https://github.com/user-attachments/assets/e065fe4c-3694-477f-b4d6-316917df7c0a ### 使用我的声音进行 GPT-SoVITS 配音 https://github.com/user-attachments/assets/47d965b2-b4ab-4a0b-9d08-b49a7bf3508c
### 语言支持 **输入语言支持(持续增加中):** 🇺🇸 英语 🤩 | 🇷🇺 俄语 😊 | 🇫🇷 法语 🤩 | 🇩🇪 德语 🤩 | 🇮🇹 意大利语 🤩 | 🇪🇸 西班牙语 🤩 | 🇯🇵 日语 😐 | 🇨🇳 中文* 😊 **翻译支持所有语言,而配音语言取决于所选的 TTS 方式。** ## 安装 遇到问题?请点击[**此处**](https://share.fastgpt.in/chat/share?shareId=066w11n3r9aq6879r4z0v9rh)与我们的免费在线 AI 智能体交流以获取帮助。 ### 选项 A:使用 uv(推荐,无需 Anaconda) [uv](https://docs.astral.sh/uv/) 会自动下载 Python 3.10 并创建一个隔离环境 —— 无需您自己安装 Python 或 Anaconda。 1. 克隆仓库 ``` git clone https://github.com/Huanshere/VideoLingo.git cd VideoLingo ``` 2. 一键设置(安装 uv + Python 3.10 + 所有依赖项) ``` python setup_env.py ``` 3. 启动应用 ``` .venv\Scripts\streamlit run st.py # Windows .venv/bin/streamlit run st.py # macOS / Linux ``` 或者在 Windows 上双击 `OneKeyStart_uv.bat`。 ### 选项 B:使用 Conda
点击展开 Conda 安装步骤 1. 克隆仓库 ``` git clone https://github.com/Huanshere/VideoLingo.git cd VideoLingo ``` 2. 安装依赖项(需要 `python=3.10`) ``` conda create -n videolingo python=3.10.0 -y conda activate videolingo python install.py ``` 3. 启动应用 ``` streamlit run st.py ```
### Docker 另外,您也可以使用 Docker(需要 CUDA 12.4 且 NVIDIA 驱动版本 >550),详见 [Docker 文档](/docs/pages/docs/docker.en-US.md): ``` docker build -t videolingo . docker run -d -p 8501:8501 --gpus all videolingo ``` ## API VideoLingo 支持 OpenAI-Like API 格式和各种 TTS 接口: - LLM: `claude-sonnet-4.6`, `gpt-5.4`, `gemini-3.1-pro`, `deepseek-v3`, `grok-4.1`, ...(按质量排序;追求性价比可选择 `gemini-3-flash` 或 `gpt-5.4-mini`) - WhisperX: 在本地运行 whisperX (large-v3) 或使用 302.ai API - TTS: `azure-tts`, `openai-tts`, `siliconflow-fishtts`, **`fish-tts`**, `GPT-SoVITS`, `edge-tts`, `*custom-tts`(您可以在 custom_tts.py 中修改您自己的 TTS!) 有关详细的安装、API 配置和批处理模式说明,请参阅文档:[英文](/docs/pages/docs/start.en-US.md) | [中文](/docs/pages/docs/start.zh-CN.md) ## 当前限制 1. WhisperX 的转录性能可能会受到视频背景噪音的影响,因为它使用 wav2vac 模型进行对齐。对于背景音乐嘈杂的视频,请启用人声分离增强。此外,以数字或特殊字符结尾的字幕可能会被提前截断,因为 wav2vac 无法将数字字符(例如 "1")映射为其口语形式("one")。 2. 由于对响应的 JSON 格式要求非常严格,使用较弱的模型可能会导致处理过程中出现错误(我已经尽力去编写 prompt 了😊)。如果发生此错误,请删除 `output` 文件夹并使用其他 LLM 重试,否则重复执行会读取之前错误的响应从而导致相同的错误。 3. 由于不同语言之间的语速和语调差异,以及翻译步骤的影响,配音功能可能无法达到 100% 完美。然而,本项目已经对语速进行了大量的工程处理,以确保尽可能最佳的配音效果。 4. **多语言视频转录识别将仅保留主要语言**。这是因为 whisperX 在强制对齐单词级字幕时使用的是针对单一语言的专用模型,并且会删除无法识别的语言。 5. **目前无法分别为多个角色配音**,因为 whisperX 的说话人区分能力还不够可靠。 ## 📄 许可证 本项目采用 Apache 2.0 许可证授权。特别感谢以下开源项目所做的贡献: [whisperX](https://github.com/m-bain/whisperX), [yt-dlp](https://github.com/yt-dlp/yt-dlp), [json_repair](https://github.com/mangiucugna/json_repair), [BELLE](https://github.com/LianjiaTech/BELLE) ## 📬 联系我 - 在 GitHub 上提交 [Issues](https://github.com/Huanshere/VideoLingo/issues) 或 [Pull Requests](https://github.com/Huanshere/VideoLingo/pulls) - 在 Twitter 上私信我:[@Huanshere](https://twitter.com/Huanshere) - 发送邮件至:team@videolingo.io ## ⭐ Star 历史 [![Star History Chart](https://api.star-history.com/svg?repos=Huanshere/VideoLingo&type=Timeline)](https://star-history.com/#Huanshere/VideoLingo&Timeline)

如果您觉得 VideoLingo 对您有帮助,请给我点个 ⭐️!

标签:AI字幕, AI配音, GPT-SoVITS, Kubernetes, Netflix级字幕, NLP, Petitpotam, Python, Streamlit, Vectored Exception Handling, WhisperX, yt-dlp, 人工智能, 单行字幕, 多语言翻译, 字幕切割, 字幕对齐, 开源, 无后门, 术语库, 深度学习, 用户模式Hook绕过, 自动配音, 视频处理, 视频搬运, 视频翻译, 访问控制, 语音识别, 请求拦截, 跨语言知识共享, 逆向工具