krillinai/KrillinAI
GitHub: krillinai/KrillinAI
基于 LLM 的 AI 视频翻译配音一站式解决方案,支持百种语言互译、声音克隆及多平台视频格式适配。
Stars: 9634 | Forks: 834

# 极简 AI 视频翻译和配音工具

**[English](/README.md)|[简体中文](/docs/zh/README.md)|[日本語](/docs/jp/README.md)|[한국어](/docs/kr/README.md)|[Tiếng Việt](/docs/vi/README.md)|[Français](/docs/fr/README.md)|[Deutsch](/docs/de/README.md)|[Español](/docs/es/README.md)|[Português](/docs/pt/README.md)|[Русский](/docs/rus/README.md)|[اللغة العربية](/docs/ar/README.md)**
[](https://x.com/KrillinAI)
[](https://jq.qq.com/?_wv=1027&k=754069680)
[](https://space.bilibili.com/242124650)
[](https://deepwiki.com/krillinai/KrillinAI)
## 项目介绍 ([立即试用在线版!](https://www.klic.studio/))
[**快速开始**](#-quick-start)
KrillinAI 是由 Krillin AI 开发的一站式音视频本地化和增强解决方案。这款极简而强大的工具整合了视频翻译、配音和声音克隆功能,支持横屏和竖屏格式,确保在所有主流平台(Bilibili、小红书、抖音、微信视频号、快手、YouTube、TikTok 等)上完美呈现。通过端到端的工作流,您只需点击几下,即可将原始素材转化为精美的、可直接跨平台使用的内容。
## 主要特性与功能:
🎯 **一键开始**:无需复杂的环境配置,自动安装依赖,开箱即用,更有全新桌面版上线,操作更便捷!
📥 **视频获取**:支持 yt-dlp 下载或本地文件上传
📜 **精准识别**:基于 Whisper 的高准确度语音识别
🧠 **智能分段**:利用 LLM 进行字幕分割和对齐
🔄 **术语替换**:一键替换专业词汇
🌍 **专业翻译**:基于 LLM 的结合上下文的翻译,保持语义自然
🎙️ **声音克隆**:提供 CosyVoice 的精选音色或自定义声音克隆
🎬 **视频合成**:自动处理横竖屏视频及字幕布局
💻 **跨平台**:支持 Windows、Linux、macOS,提供桌面版和服务器版
## 效果演示
下图展示了导入一段 46 分钟的本地视频后,一键执行生成的字幕文件效果,未进行任何人工调整。无遗漏、无重叠,分段自然,翻译质量极高。

|
### 字幕翻译
https://github.com/user-attachments/assets/bba1ac0a-fe6b-4947-b58d-ba99306d0339
|
### 配音
https://github.com/user-attachments/assets/0b32fad3-c3ad-4b6a-abf0-0865f0dd2385
|
### 竖屏模式
https://github.com/user-attachments/assets/c2c7b528-0ef8-4ba9-b8ac-f9f92f6d4e71
|
## 🔍 支持的语音识别服务
_**下表中所有本地模型均支持可执行文件 + 模型文件的自动安装;您只需选择,KrillinAI 会为您准备好一切。**_
| 服务来源 | 支持平台 | 模型选项 | 本地/云端 | 备注 |
|------------------------|---------------------|------------------------------------------|-------------|-----------------------------|
| **OpenAI Whisper** | 所有平台 | - | 云端 | 速度快,效果好 |
| **FasterWhisper** | Windows/Linux | `tiny`/`medium`/`large-v2` (推荐 medium+) | 本地 | 速度更快,无云端服务成本 |
| **WhisperKit** | macOS (仅限 M 系列) | `large-v2` | 本地 | 针对 Apple 芯片的原生优化 |
| **WhisperCpp** | 所有平台 | `large-v2` | 本地 | 支持所有平台 |
| **Alibaba Cloud ASR** | 所有平台 | - | 云端 | 避免中国大陆网络问题 |
## 🚀 大语言模型支持
✅ 兼容所有符合 **OpenAI API 规范** 的云端/本地大语言模型服务,包括但不限于:
- OpenAI
- Gemini
- DeepSeek
- 通义千问
- 本地部署的开源模型
- 其他兼容 OpenAI 格式的 API 服务
## 🎤 TTS 文本转语音支持
- 阿里云语音服务
- OpenAI TTS
## 语言支持
支持的输入语言:中文、英语、日语、德语、土耳其语、韩语、俄语、马来语(持续增加中)
支持的翻译语言:英语、中文、俄语、西班牙语、法语等 101 种其他语言
## 界面预览


## 🚀 快速开始
您可以在 [KrillinAI 的 Deepwiki](https://deepwiki.com/krillinai/KrillinAI) 上提问。它索引了仓库中的文件,因此您可以快速找到答案。
### 基本步骤
首先,从 [Release](https://github.com/KrillinAI/KrillinAI/releases) 下载与您的设备系统匹配的可执行文件,然后按照下面的教程选择桌面版或非桌面版。将软件下载放在一个空文件夹中,因为运行它会生成一些目录,放在空文件夹中便于管理。
【如果是桌面版,即带有 "desktop" 的 release 文件,请看这里】
_桌面版是新推出的,旨在解决新用户难以正确编辑配置文件的问题,目前仍有一些 Bug 正在持续更新中。_
1. 双击文件即可开始使用(桌面版也需要在软件内进行配置)
【如果是非桌面版,即不带 "desktop" 的 release 文件,请看这里】
_非桌面版是初始版本,配置较为复杂,但功能稳定,适合服务器部署,因为它提供网页形式的 UI。_
1. 在该文件夹内创建一个 `config` 文件夹,然后在 `config` 文件夹中创建一个 `config.toml` 文件。将源代码 `config` 目录下的 `config-example.toml` 文件内容复制到 `config.toml` 中,并根据注释填写您的配置信息。
2. 双击或在终端中执行可执行文件以启动服务
3. 打开浏览器并输入 `http://127.0.0.1:8888` 即可开始使用(将 8888 替换为您在配置文件中指定的端口)
### 致:macOS 用户
【如果是桌面版,即带有 "desktop" 的 release 文件,请看这里】
由于签名问题,桌面版目前无法通过双击运行或通过 dmg 安装;您需要手动信任该应用程序。方法如下:
1. 在可执行文件所在的目录中打开终端(假设文件名为 KrillinAI_1.0.0_desktop_macOS_arm64)
2. 依次执行以下命令:
```
sudo xattr -cr ./KrillinAI_1.0.0_desktop_macOS_arm64
sudo chmod +x ./KrillinAI_1.0.0_desktop_macOS_arm64
./KrillinAI_1.0.0_desktop_macOS_arm64
```
【如果是非桌面版,即不带 "desktop" 的 release 文件,请看这里】
本软件未签名,因此在 macOS 上运行时,在完成“基本步骤”中的文件配置后,您还需要手动信任该应用程序。方法如下:
1. 在可执行文件所在的目录中打开终端(假设文件名为 KrillinAI_1.0.0_macOS_arm64)
2. 依次执行以下命令:
sudo xattr -rd com.apple.quarantine ./KrillinAI_1.0.0_macOS_arm64
sudo chmod +x ./KrillinAI_1.0.0_macOS_arm64
./KrillinAI_1.0.0_macOS_arm64
这将启动服务
### Docker 部署
本项目支持 Docker 部署;请参阅 [Docker 部署说明](./docker.md)
根据提供的配置文件,以下是 README 文件中更新的“配置帮助(必读)”部分:
### 配置帮助(必读)
配置文件分为几个部分:`[app]`、`[server]`、`[llm]`、`[transcribe]` 和 `[tts]`。一个任务由语音识别 (`transcribe`) + 大模型翻译 (`llm`) + 可选的语音服务 (`tts`) 组成。理解这一点将有助于您更好地掌握配置文件。
**最简单快捷的配置:**
**仅用于字幕翻译:**
* 在 `[transcribe]` 部分,将 `provider.name` 设置为 `openai`。
* 然后您只需在 `[llm]` 块中填写您的 OpenAI API Key 即可开始执行字幕翻译。`app.proxy`、`model` 和 `openai.base_url` 可根据需要填写。
**平衡成本、速度和质量(使用本地语音识别):**
* 在 `[transcribe]` 部分,将 `provider.name` 设置为 `fasterwhisper`。
* 将 `transcribe.fasterwhisper.model` 设置为 `large-v2`。
* 在 `[llm]` 块中填写您的大语言模型配置。
* 所需的本地模型将被自动下载并安装。
**文本转语音 (TTS) 配置(可选):**
* TTS 配置是可选的。
* 首先,在 `[tts]` 部分下设置 `provider.name`(例如 `aliyun` 或 `openai`)。
* 然后,填写所选提供商对应的配置块。例如,如果您选择 `aliyun`,则必须填写 `[tts.aliyun]` 部分。
* 用户界面中的语音代码应根据所选提供商的文档进行选择。
* **注意:** 如果您计划使用声音克隆功能,则必须选择 `aliyun` 作为 TTS 提供商。
**阿里云配置:**
* 有关获取阿里云服务所需的 `AccessKey`、`Bucket` 和 `AppKey` 的详细信息,请参阅 [阿里云配置说明](https://www.google.com/search?q=./aliyun.md)。AccessKey 等重复字段的设计是为了保持配置结构的清晰。
## 常见问题
请访问 [常见问题](./faq.md)
## 联系我们
1. 加入我们的 QQ 群提问:754069680
2. 关注我们的社交媒体账号,[Bilibili](https://space.bilibili.com/242124650),我们每天分享 AI 技术领域的优质内容。
## Star 历史
[](https://star-history.com/#KrillinAI/KrillinAI&Date)
标签:AI视频翻译, Bilibili工具, EVTX分析, EVTX分析, LLM, Petitpotam, Python, TikTok工具, Unmanaged PE, YouTube工具, 内容本地化, 多语言翻译, 大语言模型应用, 抖音小红书, 数字内容处理, 无后门, 日志审计, 短视频制作, 自动字幕生成, 自媒体工具, 视频配音工具, 语音克隆, 请求拦截, 跨平台适配