duixcom/Duix-Avatar

GitHub: duixcom/Duix-Avatar

一款支持离线部署的开源 AI 数字人视频生成工具,可在本地完成外貌声音克隆并驱动数字人生成多语言视频内容。

Stars: 12411 | Forks: 2044

# 🚀🚀🚀 Duix Avatar — 真正开源的 AI 数字人工具套件,支持离线视频生成和数字人克隆 🔗 **官方网站:** [www.duix.com](http://www.duix.com) # 目录 1. [什么是 Duix.Avatar](#1-whats-Duix.Avatar) 2. [简介](#2-introduction) 3. [如何在本地运行](#3-how-to-run-locally) 4. [开放 API](#4-open-apis) 5. [更新日志](#5-whats-new) 6. [常见问题](#6-faq) 7. [如何实时交互](#7-how-to-interact-in-real-time) 8. [联系我们](#8-contact) 9. [许可证](#9-license) 10. [致谢](#10-acknowledgments) 11. [Star 历史](#11-star-history) ## 1. 什么是 Duix.Avatar **Duix.Avatar** 是由 **Duix.com** 开发的一个免费开源的 AI 数字人项目。 七年前,一群年轻的开拓者选择了一条非传统的技术路径,开发了一种使用真人视频数据训练数字人模型的方法。与传统的成本高昂的 3D 数字人方法不同,我们利用 AI 生成技术创造了超逼真的数字人,将制作成本从数十万美元降至仅 1000 美元。这项创新已赋能超过 10,000 家企业,并为教育工作者、内容创作者、法律专家、医疗从业者和企业家等各领域的专业人士生成了超过 500,000 个个性化数字人,极大地提高了他们的视频制作效率。然而,我们的愿景超越了商业应用。我们相信这项变革性的技术应该让每个人都能使用。为了普及数字人创建,我们开源了我们的克隆技术和视频制作框架。我们的承诺依然不变:打破技术壁垒,让所有人都能使用前沿工具。现在,任何拥有计算机的人都可以免费制作自己的 AI Avatar 并以零成本生成视频——这就是 **Duix.Avatar** 的本质。 ## 2. 简介 ![img](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/af85207903155321.png) Duix.Avatar 是一款专为 Windows 系统设计的全离线视频合成工具,能够精确克隆您的外貌和声音,将您的形象数字化。您可以通过文本和语音驱动虚拟数字人生成视频。无需网络连接,在保护您隐私的同时,享受便捷高效的数字体验。 - 核心功能 - 精准的外貌和声音克隆:利用先进的 AI 算法高精度捕捉人脸特征,包括五官、轮廓等,构建逼真的虚拟模型。还能精准克隆声音,捕捉并再现人声的细微特征,支持多种语音参数设置,打造高度相似的克隆效果。 - 文本和语音驱动的虚拟数字人:通过自然语言处理技术理解文本内容,将文本转换为自然流畅的语音来驱动虚拟数字人。也可以直接使用语音输入,让虚拟数字人根据语音的节奏和语调做出相应的动作和面部表情,使数字人的表演更加自然生动。 - 高效的视频合成:高度同步数字人视频画面与声音,实现自然流畅的唇形同步(lip-syncing),智能优化音视频同步效果。 - 多语言支持:脚本支持八种语言——英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。 - 核心优势 - 全离线操作:无需网络连接,有效保护用户隐私,允许用户在安全、独立的环境中创作,避免网络传输过程中潜在的数据泄露。 - 用户友好:界面简洁直观,即使是没有技术背景的初学者也能轻松上手,快速掌握软件用法,开启数字人创作之旅。 - 多模型支持:支持导入多种模型,并通过一键启动包进行管理,方便用户根据不同的创作需求和应用场景选择合适的模型。 - 技术支持 - 语音克隆技术:利用人工智能等先进技术,根据给定的语音样本生成相似或相同的声音,涵盖语音的语境、语调、语速等方面。 - 自动语音识别:将人类语音词汇内容转换为计算机可读的输入(文本格式)的技术,使计算机能够“理解”人类语音。 - 计算机视觉技术:用于视频合成的视觉处理,包括人脸识别和唇部运动分析,确保虚拟数字人的唇部动作与语音和文本内容匹配。 ## 3. 如何在本地运行 Duix.Avatar 支持基于 Docker 的快速部署。在部署之前,请确保您的硬件和软件环境符合指定要求。 Duix.Avatar 支持两种部署模式:Windows / Ubuntu 22.04 安装 ### **依赖项** 1. Nodejs 18 2. Docker 镜像 - docker pull guiji2025/fun-asr - docker pull guiji2025/fish-speech-ziming - docker pull guiji2025/duix.avatar ### 模式一:Windows 安装 **系统要求:** - 目前支持 Windows 10 19042.1526 或更高版本 **硬件要求:** - 必须有 D 盘:主要用于存储数字人和项目数据 - 可用空间要求:30GB 以上 - C 盘:用于存储服务镜像文件 - 可用空间要求:100GB 以上 - 如果可用空间不足 100GB,安装 Docker 后,可以在下图所示的位置选择剩余空间超过 100GB 的其他磁盘文件夹。 ![img](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/2fdd1e6405155323.png) - 推荐配置: - CPU: 13th Gen Intel Core i5-13400F - 内存: 32GB - 显卡: RTX 4070 - 确保您拥有 NVIDIA 显卡并已正确安装驱动程序 ![img](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/60e274a249155325.png) #### **安装 Windows Docker** 1. 使用命令 `wsl --list --verbose` 检查是否安装了 WSL。如果显示如下,则已安装,无需再次安装。 ![img](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/e3c330de75155326.png) 2. 使用 `wsl --update` 更新 WSL。 ![img](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/bd70607087155329.png) 3. [下载 Docker for Windows](https://www.docker.com/),根据您的 CPU 架构选择合适的安装包。 4. 当您看到此界面时,表示安装成功。 ![img](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/38779172ee155330.png) 5. 运行 Docker ![img](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/c72d9be87d155331.png) 6. 首次运行时接受协议并跳过登录 ![img](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/0879a5fa0d155335.png) ![img](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/e27a136dac155337.png) ![img](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/d1c965471c155338.png) #### **安装服务端** 使用 Docker, docker-compose 安装步骤如下: 1. `docker-compose.yml` 文件位于 `/deploy` 目录中。 2. 在 `/deploy` 目录中执行 `docker-compose up -d`,如果您想使用 lite 版本,请执行 `docker-compose -f docker-compose-lite.yml up -d` 3. 请耐心等待(约半小时,速度取决于网络),下载将消耗约 70GB 流量,请确保使用 WiFi 4. 当您在 Docker 中看到三个服务时,表示成功(lite 版本只有一个服务 `Duix.Avatar-gen-video`) ![img](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/a7b210548a155339.png) #### **针对 NVIDIA 50 系显卡的服务器部署方案** 适用于 50 系列显卡(已测试,在 CUDA 12.8 下也适用于 30/40 系列)使用 PyTorch 官方预览版 #### **客户端** 1. 直接下载 [官方构建的安装包](https://github.com/duixcom/Duix.Avatar/releases) 2. 双击 `Duix.Avatar-x.x.x-setup.exe` 进行安装 ### 模式二:Ubuntu 22.04 安装 **系统要求:** 我们已在 **Ubuntu 22.04** 上进行了完整测试。不过,理论上它支持桌面版 Linux 发行版。 **硬件要求:** - 推荐配置 - CPU: 13th Generation Intel Core i5 - 13400F - 内存: 32G 或以上(必要) - 显卡: RTX - 4070(确保您有 NVIDIA 显卡且显卡驱动已正确安装) - 硬盘: 可用空间大于 100G **安装 Docker:** 首先,使用 `docker --version` 检查是否安装了 Docker。如果已安装,请跳过以下步骤。 ``` sudo apt update sudo apt install docker.io sudo apt install docker-compose ``` **安装显卡驱动:** 1. 参考官方文档 安装显卡驱动。 安装完成后,执行 `nvidia-smi` 命令。如果显示显卡信息,则安装成功。 2. 安装 NVIDIA Container Toolkit ​ NVIDIA Container Toolkit 是 Docker 使用 NVIDIA GPU 的必备工具。安装步骤如下: - 添加 NVIDIA 软件包仓库: ``` distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \ && curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add - \ && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list ``` - 更新软件包列表并安装工具包: ``` sudo apt-get update sudo apt-get install -y nvidia-container-toolkit ``` - 配置 Docker 使用 NVIDIA 运行时: ``` sudo nvidia-ctk runtime configure --runtime=docker ``` - 重启 Docker 服务: ``` sudo systemctl restart docker ``` #### **安装服务端** ``` cd /deploy docker-compose -f docker-compose-linux.yml up -d ``` #### **安装客户端** 1. 直接下载 Linux 版本的 [官方构建安装包](https://github.com/duixcom/Duix.Avatar/releases)。 2. 双击 `Duix.Avatar-x.x.x.AppImage` 启动。无需安装。 提醒:在 Ubuntu 系统中,如果您以 `root` 用户进入桌面,直接双击 `Duix.Avatar - x.x.x.AppImage` 可能无法运行。您需要在命令行终端中执行 `./Duix.Avatar - x.x.x.AppImage --no - sandbox`。添加 `--no - sandbox` 参数即可解决。 ## 4. 开放 API 我们已经开放了模型训练和视频合成的 API。Docker 启动后,本地会暴露几个端口,可以通过 `http://127.0.0.1` 访问。 具体代码请参考: - src/main/service/model.js - src/main/service/video.js - src/main/service/voice.js ### **模型训练** 1. 将视频分离为无声视频 + 音频 2. 将音频放入 `D:\duix_avatar_data\voice\data`,这是与 `guiji2025/fish-speech-ziming` 服务约定的路径,可在 docker-compose 中修改 3. 调用 参数示例:响应示例:**记录响应结果,后续音频合成时需要用到** ### **音频合成** 接口:`http://127.0.0.1:18180/v1/invoke` ``` // Request parameters { "speaker": "{uuid}", // A unique UUID "text": "xxxxxxxxxx", // Text content to synthesize "format": "wav", // Fixed parameter "topP": 0.7, // Fixed parameter "max_new_tokens": 1024, // Fixed parameter "chunk_length": 100, // Fixed parameter "repetition_penalty": 1.2, // Fixed parameter "temperature": 0.7, // Fixed parameter "need_asr": false, // Fixed parameter "streaming": false, // Fixed parameter "is_fixed_seed": 0, // Fixed parameter "is_norm": 0, // Fixed parameter "reference_audio": "{voice.asr_format_audio_url}", // Return value from previous "Model Training" step "reference_text": "{voice.reference_audio_text}" // Return value from previous "Model Training" step } ``` ### **视频合成** - 合成接口:`http://127.0.0.1:8383/easy/submit` // 请求参数 { "audio_url": "{audioPath}", // 音频路径 "video_url": "{videoPath}", // 视频路径 "code": "{uuid}", // 唯一标识 "chaofen": 0, // 固定值 "watermark_switch": 0, // 固定值 "pn": 1 // 固定值 } - 进度查询:`http://127.0.0.1:8383/easy/query?code=${taskCode}` GET 请求,参数 `taskCode` 为上面合成接口输入的 `code` ### **致开发者伙伴的重要通知** 我们现在宣布两项并行的服务方案: | **项目** | **Duix.Avatar 开源本地部署** | **数字人/克隆声音 API 服务** | | ------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ | | 用途 | 开源本地部署 | 快速克隆 API 服务 | | 推荐人群 | 技术用户 | 商业用户 | | 技术门槛 | 具有深度学习框架经验/追求深度定制/希望参与社区共建的开发者 | 快速商业集成/专注上层应用开发/商业场景需要企业级 SLA 保障 | | 硬件要求 | 需要购买 GPU 服务器 | 无需购买 GPU 服务器 | | 定制化 | 可根据需要修改和扩展代码,完全控制软件的功能和行为 | 不能直接修改源代码,只能通过 API 提供的接口扩展功能,灵活性不如开源项目 | | 技术支持 | 社区支持 | 动态扩容支持 + 专业技术响应团队 | | 维护成本 | 高维护成本 | 维护简单 | | 唇形同步效果 | 效果可用 | 惊艳且更高清晰度的效果 | | 商业授权 | 支持全球免费商业使用(用户超过 100,000 或年收入超过 1000 万美元的企业需签订商业许可协议) | 允许商业使用 | | 迭代速度 | 更新较慢,Bug 修复依赖社区 | 优先使用最新模型/算法,问题解决快 | 我们始终坚持开源精神,推出 API 服务旨在为有不同需求的开发者提供更完善的解决方案矩阵。无论您选择哪种方式,都可以随时通过 [https://duix.com](https://duix.com/) 获取技术支持文档。 我们期待与您携手,共同推动数字人技术的普惠发展! 您可以在官方网站与 Duix.Avatar 数字人聊天:https://duix.com/ 我们还在 DUIX 平台提供 API:https://docs.duix.com/api-reference/api/Introduction ## 5. 更新日志 ### **[Nvidia 50 系列 GPU 版本公告]** 1. 已在 5090 GPU 上测试验证 2. 安装说明请参阅 [NVIDIA 50 系列显卡服务器部署方案](#Server-Deployment-Solution-for-NVIDIA-50-Series-Graphics-Cards) ### **[新版 Ubuntu 公告]** **Ubuntu 版本正式发布** 1. 已完成 Ubuntu 22.04 桌面版(内核 6.8.0--generic)的适配和验证工作。尚未对其他 Linux 版本进行兼容性测试。 2. 增加了客户端程序界面的国际化(英文)支持。 3. 修复了一些已知问题 - \#304 - \#292 4. [Ubuntu22.04 安装文档](https://github.com/duixcom/Duix.Avatar?tab=readme-ov-file#ubuntu-2204-installation) ## 6. 常见问题 ### **提问前的自检步骤** 1. 检查三个服务是否都处于 Running 状态 ![img](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/4f46be1f0a155340.png) 2. 确认您的机器有 NVIDIA 显卡且驱动已正确安装。 本项目的所有算力都在本地。如果没有 NVIDIA 显卡或驱动不正确,这三个服务将无法启动。 3. 确保服务端和客户端都已更新到最新版本。该项目刚开源,社区非常活跃,更新频繁。您的问题可能在新版本中已经解决。 - 服务端:进入 `/deploy` 目录,重新执行 `docker-compose up -d` - 客户端:`pull` 代码并重新 `build` 4. [GitHub Issues](https://github.com/duixcom/Duix.Avatar/issues) 持续更新,问题正在每天被解决和关闭。请经常查看,您的问题可能已经被解决。 ### **问题模板** 1. 问题描述 详细描述复现步骤,最好附上截图。 2. 提供错误日志 - 如何获取客户端日志: ![img](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/f5937c3802155342.jpg) - 服务端日志: 找到关键位置,或者点击我们的三个 Docker 服务,如下图所示进行“复制”。 ![img](https://static.pigsec.cn/wp-content/uploads/repos/2026/03/2f8f0bc73e155344.png) ## 7. 如何实时交互 Duix.Avatar 的数字人实现了数字人克隆和非实时视频合成。 如果您希望数字人支持交互,可以访问 [duix.com](www.duix.com) 体验免费测试。 ## 8. 联系我们 如有任何疑问,请提出 issue 或联系 james@duix.com ## 9. 许可证 https://github.com/duixcom/Duix.Avatar/blob/main/LICENSE ## 10. 致谢 - ASR 基于 fun-asr - TTS 基于 fish-speech-ziming ## 11. Star 历史 [GitHub Star 历史](https://www.star-history.com/#duixcom/Duix.Avatar&Date)
标签:AI Avatar, AIGC, AI数字人, Deepfake, IPv6支持, MITM代理, 低成本数字人, 内容创作, 图像处理, 多模态AI, 客户端加密, 客户端加密, 开源数字人, 数字人克隆, 数字人建模, 数字人驱动, 数字孪生, 深度伪造, 生成式AI, 神经网络, 离线视频生成, 索引, 虚拟主播, 虚拟人, 视频制作, 视频合成, 视频自动化, 请求拦截, 逆向工具