Lightricks/LTX-2
GitHub: Lightricks/LTX-2
LTX-2 是基于 DiT 架构的开源音视频生成模型,提供从文本、图像、音频到高保真视频的完整推理与 LoRA 训练工具链。
Stars: 6304 | Forks: 1012
# LTX-2
[](https://ltx.io)
[](https://huggingface.co/Lightricks/LTX-2.3)
[](https://console.ltx.video/playground)
[](https://arxiv.org/abs/2601.03233)
[](https://discord.gg/ltxplatform)
**LTX-2** 是首个基于 DiT 的音视频基础模型,在单一模型中包含了现代视频生成的所有核心功能:音视频同步、高保真度、多种性能模式、达到制作级别的输出、API 访问以及开放访问权限。
## 🚀 快速开始
```
# Clone 仓库
git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2
# 设置环境
uv sync --frozen
source .venv/bin/activate
```
### 必需模型
从 [LTX-2.3 HuggingFace 仓库](https://huggingface.co/Lightricks/LTX-2.3)下载以下模型:
**LTX-2.3 模型权重**(选择并下载以下其中一个)
* [`ltx-2.3-22b-dev.safetensors`](https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-22b-dev.safetensors) - [下载](https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-22b-dev.safetensors)
* [`ltx-2.3-22b-distilled-1.1.safetensors`](https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-22b-distilled-1.1.safetensors) - [下载](https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-22b-distilled-1.1.safetensors)
**空间放大器 (Spatial Upscaler)** - 本仓库中当前的两阶段 pipeline 实现需要此模型
* [`ltx-2.3-spatial-upscaler-x2-1.1.safetensors`](https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-spatial-upscaler-x2-1.1.safetensors) - [下载](https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-spatial-upscaler-x2-1.1.safetensors)
* [`ltx-2.3-spatial-upscaler-x1.5-1.0.safetensors`](https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-spatial-upscaler-x1.5-1.0.safetensors) - [下载](https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-spatial-upscaler-x1.5-1.0.safetensors)
**时间放大器 (Temporal Upscaler)** - 模型支持,未来的 pipeline 实现将需要此模型
* [`ltx-2.3-temporal-upscaler-x2-1.0.safetensors`](https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-temporal-upscaler-x2-1.0.safetensors) - [下载](https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-temporal-upscaler-x2-1.0.safetensors)
**蒸馏 LoRA** - 本仓库中当前的两阶段 pipeline 实现需要此模型(DistilledPipeline 和 ICLoraPipeline 除外)
* [`ltx-2.3-22b-distilled-lora-384-1.1.safetensors`](https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-22b-distilled-lora-384-1.1.safetensors) - [下载](https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-22b-distilled-lora-384-1.1.safetensors)
**Gemma 文本编码器**(下载该仓库中的所有资源)
* [`Gemma 3`](https://huggingface.co/google/gemma-3-12b-it-qat-q4_0-unquantized/tree/main)
**LoRA**
* [`LTX-2.3-22b-IC-LoRA-Union-Control`](https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-Union-Control) - [下载](https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-Union-Control/resolve/main/ltx-2.3-22b-ic-lora-union-control-ref0.5.safetensors)
* [`LTX-2.3-22b-IC-LoRA-Motion-Track-Control`](https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-Motion-Track-Control) - [下载](https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-Motion-Track-Control/resolve/main/ltx-2.3-22b-ic-lora-motion-track-control-ref0.5.safetensors)
* [`LTX-2-19b-IC-LoRA-Detailer`](https://huggingface.co/Lightricks/LTX-2-19b-IC-LoRA-Detailer) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-IC-LoRA-Detailer/resolve/main/ltx-2-19b-ic-lora-detailer.safetensors)
* [`LTX-2-19b-IC-LoRA-Pose-Control`](https://huggingface.co/Lightricks/LTX-2-19b-IC-LoRA-Pose-Control) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-IC-LoRA-Pose-Control/resolve/main/ltx-2-19b-ic-lora-pose-control.safetensors)
* [`LTX-2-19b-LoRA-Camera-Control-Dolly-In`](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-In) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-In/resolve/main/ltx-2-19b-lora-camera-control-dolly-in.safetensors)
* [`LTX-2-19b-LoRA-Camera-Control-Dolly-Left`](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Left) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Left/resolve/main/ltx-2-19b-lora-camera-control-dolly-left.safetensors)
* [`LTX-2-19b-LoRA-Camera-Control-Dolly-Out`](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Out) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Out/resolve/main/ltx-2-19b-lora-camera-control-dolly-out.safetensors)
* [`LTX-2-19b-LoRA-Camera-Control-Dolly-Right`](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Right) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Right/resolve/main/ltx-2-19b-lora-camera-control-dolly-right.safetensors)
* [`LTX-2-19b-LoRA-Camera-Control-Jib-Down`](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Jib-Down) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Jib-Down/resolve/main/ltx-2-19b-lora-camera-control-jib-down.safetensors)
* [`LTX-2-19b-LoRA-Camera-Control-Jib-Up`](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Jib-Up) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Jib-Up/resolve/main/ltx-2-19b-lora-camera-control-jib-up.safetensors)
* [`LTX-2-19b-LoRA-Camera-Control-Static`](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Static) - [下载](https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Static/resolve/main/ltx-2-19b-lora-camera-control-static.safetensors)
* [`LTX-2.3-22b-IC-LoRA-HDR`](https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-HDR) - HDR IC-LoRA 及用于 `HDRICLoraPipeline` 的预计算文本嵌入
### 可用的 Pipeline
* **[TI2VidTwoStagesPipeline](packages/ltx-pipelines/src/ltx_pipelines/ti2vid_two_stages.py)** - 具备 2 倍上采样的达到制作级别的文本/图像到视频生成(推荐)
* **[TI2VidTwoStagesHQPipeline](packages/ltx-pipelines/src/ltx_pipelines/ti2vid_two_stages_hq.py)** - 与上述相同的两阶段流程,但使用 res_2s 二阶采样器(步数更少,质量更好)
* **[TI2VidOneStagePipeline](packages/ltx-pipelines/src/ltx_pipelines/ti2vid_one_stage.py)** - 用于快速原型设计的单阶段生成
* **[DistilledPipeline](packages/ltx-pipelines/src/ltx_pipelines/distilled.py)** - 使用 8 个预定义 sigmas 的最快推理
* **[ICLoraPipeline](packages/ltx-pipelines/src/ltx_pipelines/ic_lora.py)** - 视频到视频和图像到视频转换(使用蒸馏模型)
* **[KeyframeInterpolationPipeline](packages/ltx-pipelines/src/ltx_pipelines/keyframe_interpolation.py)** - 在关键帧图像之间进行插值
* **[A2VidPipelineTwoStage](packages/ltx-pipelines/src/ltx_pipelines/a2vid_two_stage.py)** - 基于输入音频文件条件的音频到视频生成
* **[RetakePipeline](packages/ltx-pipelines/src/ltx_pipelines/retake.py)** - 重新生成现有视频的特定时间区域
* **[HDRICLoraPipeline](packages/ltx-pipelines/src/ltx_pipelines/hdr_ic_lora.py)** - 输出 HDR 的视频到视频转换(通过 LogC3 逆解码获取线性浮点帧,适用于 EXR 导出和色调映射)
### ⚡ 优化技巧
* **使用 DistilledPipeline** - 仅需 8 个预定义 sigmas 的最快推理(第一阶段 8 步,第二阶段 4 步)
* **启用 FP8 量化** - 降低显存占用:`--quantization fp8-cast`(CLI)或 `quantization=QuantizationPolicy.fp8_cast()`(Python)。Fp8-cast 应与 bf16 权重结合使用,它会在运行时将其降精度转换。对于配备 TensorRT-LLM 的 Hopper GPU,请使用 `--quantization fp8-scaled-mm` 进行 FP8 缩放矩阵乘法。Fp8-scaled-mm 应与 fp8 权重结合使用。
* **安装注意力优化** - 使用 xFormers (`uv sync --extra xformers`) 或适用于 Hopper GPU 的 [Flash Attention 3](https://github.com/Dao-AILab/flash-attention)
* **使用梯度估计** - 在保持质量的同时,将推理步数从 40 减少到 20-30(参见 [pipeline 文档](packages/ltx-pipelines/README.md#denoising-loop-optimization))
* **跳过内存清理** - 如果您有足够的 VRAM,可禁用阶段间的自动内存清理以加快处理速度
* **选择单阶段 pipeline** - 当不需要高分辨率时,使用 `TI2VidOneStagePipeline` 以加快生成速度
## ✍️ LTX-2 提示词编写
编写提示词时,请侧重于对动作和场景进行详细、按时间顺序的描述。包括具体的运动、外观、摄像机角度和环境细节——所有这些都集中在一个连贯的段落中。直接从动作开始,保持描述的字面意义和精确性。想象自己是一位在描述镜头清单的摄影师。字数控制在 200 字以内。为获得最佳效果,请按以下结构构建您的提示词:
- 用一句话概述主要动作作为开头
- 补充关于动作和手势的具体细节
- 精确描述角色/物体的外观
- 包含背景和环境细节
- 指定摄像机角度和运动
- 描述灯光和色彩
- 注明任何变化或突发事件
有关编写提示词的更多指导,请参阅
### 自动提示词增强
LTX-2 pipeline 通过 `enhance_prompt` 参数支持自动提示词增强。
## 🔌 ComfyUI 集成
要在 ComfyUI 中使用我们的模型,请遵循 上的说明进行操作。
## 📦 包
本仓库被组织为一个包含三个主要包的 monorepo:
* **[ltx-core](packages/ltx-core/)** - 核心模型实现、推理栈和实用工具
* **[ltx-pipelines](packages/ltx-pipelines/)** - 用于文本到视频、图像到视频及其他生成模式的高阶 pipeline 实现
* **[ltx-trainer](packages/ltx-trainer/)** - 用于 LoRA、全参数微调和 IC-LoRA 的训练和微调工具
每个包都有各自的 README 和文档。请参阅下面的[文档](#-documentation)部分。
## 📚 文档
每个包都包含详尽的文档:
* **[LTX-Core README](packages/ltx-core/README.md)** - 核心模型实现、推理栈和实用工具
* **[LTX-Pipelines README](packages/ltx-pipelines/README.md)** - 高阶 pipeline 实现和使用指南
* **[LTX-Trainer README](packages/ltx-trainer/README.md)** - 训练和微调文档及详细指南
标签:AIGC, AI音频处理, Apex, DiT模型, HuggingFace, LoRA微调, LTX-2, 人工智能, 凭据扫描, 基础模型, 多模态模型, 开源模型, 机器学习, 模型推理, 深度学习, 生成式AI, 用户模式Hook绕过, 神经网络, 索引, 视频生成, 计算机视觉, 逆向工具, 音视频生成, 音频生成