Lightricks/LTX-2

GitHub: Lightricks/LTX-2

LTX-2 是基于 DiT 架构的开源音视频生成模型,提供从文本、图像、音频到高保真视频的完整推理与 LoRA 训练工具链。

Stars: 6304 | Forks: 1012

# LTX-2 [![网站](https://img.shields.io/badge/Website-LTX-181717?logo=google-chrome)](https://ltx.io) [![模型](https://img.shields.io/badge/HuggingFace-Model-orange?logo=huggingface)](https://huggingface.co/Lightricks/LTX-2.3) [![演示](https://img.shields.io/badge/Demo-Try%20Now-brightgreen?logo=data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAABQAAAAUCAYAAACNiR0NAAAAAXNSR0IArs4c6QAAAERlWElmTU0AKgAAAAgAAYdpAAQAAAABAAAAGgAAAAAAA6ABAAMAAAABAAEAAKACAAQAAAABAAAAFKADAAQAAAABAAAAFAAAAACy3fD9AAACmElEQVQ4Ea1VP2haYRA/fRo0mESRIIqb2IwxuNUl0CGFQBC6OAWcikMottCpqYtDQIgdQsBFhAjZqiQhbhmySJBOgmNU0EGCg9r61Bivd0ffoykE0iQH37/77n7f3e/uqQFIPB7P/N3d3QeDwfAFEedZ91ghnyH5JM1m87dWq6UavF6vdTKZfDcajW/p4rE49+wIFMj33Gq1vlNo+kxg758KpiETqP/29vaXweVyqaS0aBfPXEfGFwTjWCwM+KBQoWA4HAJx/KDNvxcmTTGbzYAH8SljOp2C2+2GjY0NqNfrcHFxAXNzc2LDfCuKIq78KBdFOwsgGzidTnA4HHBzcwO9Xg8sFgtsbm7C3t4eVCoVaDQa0O12YXl5GUwmk5z5cZ/PB6PRCNrttgADFQUXFhbw8PAQVVXF3d1dJAeMx+P0zn0Jh8OYz+eRADCRSGAqlcLxeIz7+/u4tLSEjKUDZrNZ8U4mk0jR4fr6Op6enoru+voa0+k0rq2tYTAYxE6ng9QiSLRgrVZDv9+PFLkA6kUhT+GEC8C8XF5ewtHRkejICShiaDabwPvj42NJm3k7ODiQdDl9Fr0ocqJpdXUVIpEIdz7Y7XZRr6ysQDQahXK5LORvbW1p5rC9vQ2UifAooBqHuVxO0vt72tnZwWq1qqtisRgWCgU5ZzIZPDk50fdUUEmZvxTmAgKBgAxunT/fJpRKJWmhUCgEVDi4uroSG46kWCzC4uKitNVgMICzszOhSgA5fiJZhp4Lbbh1KARpbF65D/lx3vMdP05Vlkf5zKIDyukFJi7N6AVwNAhVsdlsM+LsjaZ56sq8kyQUqs4P6rsAKV49B4x4Padf7Y9Kv9+fEmiBQH8S4Gsa5v8EHpL9VwL7xH8BvwEcd4ccVf02KQAAAABJRU5ErkJggg==)](https://console.ltx.video/playground) [![论文](https://img.shields.io/badge/Paper-PDF-EC1C24?logo=adobeacrobatreader&logoColor=white)](https://arxiv.org/abs/2601.03233) [![Discord](https://img.shields.io/badge/Join-Discord-5865F2?logo=discord)](https://discord.gg/ltxplatform) **LTX-2** 是首个基于 DiT 的音视频基础模型,在单一模型中包含了现代视频生成的所有核心功能:音视频同步、高保真度、多种性能模式、达到制作级别的输出、API 访问以及开放访问权限。
## 🚀 快速开始 ``` # Clone 仓库 git clone https://github.com/Lightricks/LTX-2.git cd LTX-2 # 设置环境 uv sync --frozen source .venv/bin/activate ``` ### 必需模型 从 [LTX-2.3 HuggingFace 仓库](https://huggingface.co/Lightricks/LTX-2.3)下载以下模型: **LTX-2.3 模型权重**(选择并下载以下其中一个) * [`ltx-2.3-22b-dev.safetensors`](https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-22b-dev.safetensors) - [下载](https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-22b-dev.safetensors) * [`ltx-2.3-22b-distilled-1.1.safetensors`](https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-22b-distilled-1.1.safetensors) - [下载](https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-22b-distilled-1.1.safetensors) **空间放大器 (Spatial Upscaler)** - 本仓库中当前的两阶段 pipeline 实现需要此模型 * [`ltx-2.3-spatial-upscaler-x2-1.1.safetensors`](https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-spatial-upscaler-x2-1.1.safetensors) - [下载](https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-spatial-upscaler-x2-1.1.safetensors) * [`ltx-2.3-spatial-upscaler-x1.5-1.0.safetensors`](https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-spatial-upscaler-x1.5-1.0.safetensors) - [下载](https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-spatial-upscaler-x1.5-1.0.safetensors) **时间放大器 (Temporal Upscaler)** - 模型支持,未来的 pipeline 实现将需要此模型 * [`ltx-2.3-temporal-upscaler-x2-1.0.safetensors`](https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-temporal-upscaler-x2-1.0.safetensors) - [下载](https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-temporal-upscaler-x2-1.0.safetensors) **蒸馏 LoRA** - 本仓库中当前的两阶段 pipeline 实现需要此模型(DistilledPipeline 和 ICLoraPipeline 除外) * [`ltx-2.3-22b-distilled-lora-384-1.1.safetensors`](https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-22b-distilled-lora-384-1.1.safetensors) - [下载](https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-22b-distilled-lora-384-1.1.safetensors) **Gemma 文本编码器**(下载该仓库中的所有资源) * [`Gemma 3`](https://huggingface.co/google/gemma-3-12b-it-qat-q4_0-unquantized/tree/main) **LoRA** * [`LTX-2.3-22b-IC-LoRA-Union-Control`](https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-Union-Control) - [下载](https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-Union-Control/resolve/main/ltx-2.3-22b-ic-lora-union-control-ref0.5.safetensors) * [`LTX-2.3-22b-IC-LoRA-Motion-Track-Control`](https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-Motion-Track-Control) - [下载](https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-Motion-Track-Control/resolve/main/ltx-2.3-22b-ic-lora-motion-track-control-ref0.5.safetensors) * [`LTX-2-19b-IC-LoRA-Detailer`](https://huggingface.co/Lightricks/LTX-2-19b-IC-LoRA-Detailer) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-IC-LoRA-Detailer/resolve/main/ltx-2-19b-ic-lora-detailer.safetensors) * [`LTX-2-19b-IC-LoRA-Pose-Control`](https://huggingface.co/Lightricks/LTX-2-19b-IC-LoRA-Pose-Control) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-IC-LoRA-Pose-Control/resolve/main/ltx-2-19b-ic-lora-pose-control.safetensors) * [`LTX-2-19b-LoRA-Camera-Control-Dolly-In`](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-In) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-In/resolve/main/ltx-2-19b-lora-camera-control-dolly-in.safetensors) * [`LTX-2-19b-LoRA-Camera-Control-Dolly-Left`](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Left) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Left/resolve/main/ltx-2-19b-lora-camera-control-dolly-left.safetensors) * [`LTX-2-19b-LoRA-Camera-Control-Dolly-Out`](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Out) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Out/resolve/main/ltx-2-19b-lora-camera-control-dolly-out.safetensors) * [`LTX-2-19b-LoRA-Camera-Control-Dolly-Right`](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Right) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Right/resolve/main/ltx-2-19b-lora-camera-control-dolly-right.safetensors) * [`LTX-2-19b-LoRA-Camera-Control-Jib-Down`](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Jib-Down) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Jib-Down/resolve/main/ltx-2-19b-lora-camera-control-jib-down.safetensors) * [`LTX-2-19b-LoRA-Camera-Control-Jib-Up`](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Jib-Up) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Jib-Up/resolve/main/ltx-2-19b-lora-camera-control-jib-up.safetensors) * [`LTX-2-19b-LoRA-Camera-Control-Static`](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Static) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Static/resolve/main/ltx-2-19b-lora-camera-control-static.safetensors) * [`LTX-2.3-22b-IC-LoRA-HDR`](https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-HDR) - HDR IC-LoRA 及用于 `HDRICLoraPipeline` 的预计算文本嵌入 ### 可用的 Pipeline * **[TI2VidTwoStagesPipeline](packages/ltx-pipelines/src/ltx_pipelines/ti2vid_two_stages.py)** - 具备 2 倍上采样的达到制作级别的文本/图像到视频生成(推荐) * **[TI2VidTwoStagesHQPipeline](packages/ltx-pipelines/src/ltx_pipelines/ti2vid_two_stages_hq.py)** - 与上述相同的两阶段流程,但使用 res_2s 二阶采样器(步数更少,质量更好) * **[TI2VidOneStagePipeline](packages/ltx-pipelines/src/ltx_pipelines/ti2vid_one_stage.py)** - 用于快速原型设计的单阶段生成 * **[DistilledPipeline](packages/ltx-pipelines/src/ltx_pipelines/distilled.py)** - 使用 8 个预定义 sigmas 的最快推理 * **[ICLoraPipeline](packages/ltx-pipelines/src/ltx_pipelines/ic_lora.py)** - 视频到视频和图像到视频转换(使用蒸馏模型) * **[KeyframeInterpolationPipeline](packages/ltx-pipelines/src/ltx_pipelines/keyframe_interpolation.py)** - 在关键帧图像之间进行插值 * **[A2VidPipelineTwoStage](packages/ltx-pipelines/src/ltx_pipelines/a2vid_two_stage.py)** - 基于输入音频文件条件的音频到视频生成 * **[RetakePipeline](packages/ltx-pipelines/src/ltx_pipelines/retake.py)** - 重新生成现有视频的特定时间区域 * **[HDRICLoraPipeline](packages/ltx-pipelines/src/ltx_pipelines/hdr_ic_lora.py)** - 输出 HDR 的视频到视频转换(通过 LogC3 逆解码获取线性浮点帧,适用于 EXR 导出和色调映射) ### ⚡ 优化技巧 * **使用 DistilledPipeline** - 仅需 8 个预定义 sigmas 的最快推理(第一阶段 8 步,第二阶段 4 步) * **启用 FP8 量化** - 降低显存占用:`--quantization fp8-cast`(CLI)或 `quantization=QuantizationPolicy.fp8_cast()`(Python)。Fp8-cast 应与 bf16 权重结合使用,它会在运行时将其降精度转换。对于配备 TensorRT-LLM 的 Hopper GPU,请使用 `--quantization fp8-scaled-mm` 进行 FP8 缩放矩阵乘法。Fp8-scaled-mm 应与 fp8 权重结合使用。 * **安装注意力优化** - 使用 xFormers (`uv sync --extra xformers`) 或适用于 Hopper GPU 的 [Flash Attention 3](https://github.com/Dao-AILab/flash-attention) * **使用梯度估计** - 在保持质量的同时,将推理步数从 40 减少到 20-30(参见 [pipeline 文档](packages/ltx-pipelines/README.md#denoising-loop-optimization)) * **跳过内存清理** - 如果您有足够的 VRAM,可禁用阶段间的自动内存清理以加快处理速度 * **选择单阶段 pipeline** - 当不需要高分辨率时,使用 `TI2VidOneStagePipeline` 以加快生成速度 ## ✍️ LTX-2 提示词编写 编写提示词时,请侧重于对动作和场景进行详细、按时间顺序的描述。包括具体的运动、外观、摄像机角度和环境细节——所有这些都集中在一个连贯的段落中。直接从动作开始,保持描述的字面意义和精确性。想象自己是一位在描述镜头清单的摄影师。字数控制在 200 字以内。为获得最佳效果,请按以下结构构建您的提示词: - 用一句话概述主要动作作为开头 - 补充关于动作和手势的具体细节 - 精确描述角色/物体的外观 - 包含背景和环境细节 - 指定摄像机角度和运动 - 描述灯光和色彩 - 注明任何变化或突发事件 有关编写提示词的更多指导,请参阅 ### 自动提示词增强 LTX-2 pipeline 通过 `enhance_prompt` 参数支持自动提示词增强。 ## 🔌 ComfyUI 集成 要在 ComfyUI 中使用我们的模型,请遵循 上的说明进行操作。 ## 📦 包 本仓库被组织为一个包含三个主要包的 monorepo: * **[ltx-core](packages/ltx-core/)** - 核心模型实现、推理栈和实用工具 * **[ltx-pipelines](packages/ltx-pipelines/)** - 用于文本到视频、图像到视频及其他生成模式的高阶 pipeline 实现 * **[ltx-trainer](packages/ltx-trainer/)** - 用于 LoRA、全参数微调和 IC-LoRA 的训练和微调工具 每个包都有各自的 README 和文档。请参阅下面的[文档](#-documentation)部分。 ## 📚 文档 每个包都包含详尽的文档: * **[LTX-Core README](packages/ltx-core/README.md)** - 核心模型实现、推理栈和实用工具 * **[LTX-Pipelines README](packages/ltx-pipelines/README.md)** - 高阶 pipeline 实现和使用指南 * **[LTX-Trainer README](packages/ltx-trainer/README.md)** - 训练和微调文档及详细指南
标签:AIGC, AI音频处理, Apex, DiT模型, HuggingFace, LoRA微调, LTX-2, 人工智能, 凭据扫描, 基础模型, 多模态模型, 开源模型, 机器学习, 模型推理, 深度学习, 生成式AI, 用户模式Hook绕过, 神经网络, 索引, 视频生成, 计算机视觉, 逆向工具, 音视频生成, 音频生成