NVlabs/Sana

GitHub: NVlabs/Sana

SANA是一个基于线性扩散Transformer的高效框架,用于解决高分辨率图像和视频生成中的计算效率和资源限制问题。

Stars: 6794 | Forks: 488

logo

📚 文档 | SANA | SANA-1.5 | SANA-Sprint | SANA-Video | SANA-WM | Sol-RL 演示 | 🤗 HuggingFace | ComfyUI | SGLang | Cosmos-RL

ICLR 2025 口头报告 | ICML 2025 | ICCV 2025 亮点 | ICLR 2026 口头报告

**SANA** 是一个面向效率的高分辨率图像和视频生成代码库,提供完整的训练和推理流程。本仓库包含 [SANA](https://nvlabs.github.io/Sana/)、[SANA-1.5](https://nvlabs.github.io/Sana/Sana-1.5/)、[SANA-Sprint](https://nvlabs.github.io/Sana/Sprint/)、[SANA-Video](https://nvlabs.github.io/Sana/Video/)、[SANA-WM](https://nvlabs.github.io/Sana/WM/) 和 [Sol-RL](https://nvlabs.github.io/Sana/Sol-RL/) 的代码。更多详情可在我们的 [📚 文档](https://nvlabs.github.io/Sana/docs/) 中找到。 加入我们的 [Discord](https://discord.gg/rde6eaE5Ta) 与社区进行讨论!如有任何问题、遇到困难或有兴趣贡献,请随时联系我们!

teaser_page1

## 新闻 - 🔥 [2026/05] 🌍 **SANA-WM:2.6B 参数可控世界模型** 发布!支持 720p、1 分钟视频生成,具备 6 自由度相机控制。这是世界建模和具身智能的新基准。详见 [项目](https://nvlabs.github.io/Sana/WM/) | [论文](https://huggingface.co/papers/2605.15178)。 - 🔥 [2026/04] ⚡ **Sol-RL:NVFP4 推理,BF16 训练 RL** 可用!**SANA**、**FLUX.1** 和 **SD3.5-L** 的所有训练配方,连同捆绑的后训练数据集均已发布。详见 [Sol-RL 文档](https://nvlabs.github.io/Sana/docs/sol_rl/) | [页面](https://nvlabs.github.io/Sana/Sol-RL/) | [论文](https://arxiv.org/abs/2604.06916)。 - 🔥 [2026/03] 📺 **搭载 LTX-VAE 的 SANA-Video 720p 模型** 发布。使用 LTX2 Refiner 将视频提升至 2K 分辨率!详见 [模型库](https://nvlabs.github.io/Sana/docs/model_zoo/#sana-video)、[SANA-Video 文档](https://nvlabs.github.io/Sana/docs/sana_video/) 和 [关于 Refiner 的博客](https://nvlabs.github.io/Sana/Video/bet-small-win-big/blog.html)。 - 🔥 [2026/03] 💪 **后训练基础设施:SANA × Cosmos-RL** — 我们与 [Cosmos-RL](https://github.com/nvidia-cosmos/cosmos-rl) 合作,为 SANA 提供完整的 RL 基础设施。您现在可以使用最先进的算法(例如 Diffusion-NFT、Flow-GRPO)、预设配置、奖励服务和灵活的数据集,对 SANA-Image 和 SANA-Video 进行后训练(SFT/RL)。详见 [Cosmos-RL 上的 SANA](https://github.com/nvidia-cosmos/cosmos-rl/blob/main/examples/sana.md) 和我们的 [Cosmos-RL 集成文档](https://nvlabs.github.io/Sana/docs/sana_cosmos_rl/)。 - 🔥 [2026/02] 🚀 **SANA 现已在 [SGLang](https://github.com/sgl-project/sglang) 中获得支持!** 提供高性能服务,兼容 OpenAI API。 [[指南]](https://nvlabs.github.io/Sana/docs/sglang/) - 🔥 [2026/01/26] **SANA-Video 被 ICLR-2026 接收为口头报告。** 🎉🎉🎉 - 🔥 [2025/12/09] 🎬 [LongSANA](https://nvlabs.github.io/Sana/docs/longsana/):27FPS 实时分钟级视频生成模型,训练和推理代码均已发布。感谢 [LongLive Team](https://github.com/NVlabs/LongLive)。参考:[[训练]](https://nvlabs.github.io/Sana/docs/longsana/#how-to-train) | [[测试]](https://nvlabs.github.io/Sana/docs/longsana/#how-to-inference) | [[权重]](https://nvlabs.github.io/Sana/docs/model_zoo/#sana-video) - 🔥 [2025/11/24] 🪶 [博客](https://hanlab.mit.edu/blog/infinite-context-length-with-global-but-constant-attention-memory):因果线性注意力如何为 LLM 和长视频生成解锁无限上下文。 - 🔥 [2025/11/9] 🎬 [介绍视频](https://www.youtube.com/watch?v=ztdkfIMkdJ4) 展示块因果线性注意力和因果 Mix-FFN 如何工作? - 🔥 [2025/11/6] 📺**SANA-Video** 已合并到 [diffusers](https://huggingface.co/docs/diffusers/main/en/api/pipelines/sana_video)。[如何使用](https://nvlabs.github.io/Sana/docs/sana_video/#1-how-to-use-sana-video-pipelines-in-diffusers)。 - 🔥 [2025/10/27] 📺**SANA-Video** 发布。[[README]](https://nvlabs.github.io/Sana/docs/sana_video/) | [[权重]](https://nvlabs.github.io/Sana/docs/model_zoo/#sana-video) 支持文本转视频、文本图像转视频。 - 🔥 [2025/10/13] 📺**SANA-Video** 即将推出,1). 一个 5 秒线性 DiT 视频模型,2). 实时分钟级视频生成(配合 [LongLive](https://github.com/NVlabs/LongLive))。[[论文]](https://www.arxiv.org/pdf/2509.24695) | [[页面]](https://nvlabs.github.io/Sana/Video/)
点击展开所有更新 - ✅ [2025/8/20] 我们发布了新的 DC-AE-Lite,以实现更快的推理和更小的内存占用。 [[如何配置]](https://github.com/NVlabs/Sana/blob/main/configs/sana_sprint_config/1024ms/SanaSprint_1600M_1024px_allqknorm_bf16_scm_ladd_dc_ae_lite.yaml#L52) | [[diffusers PR]](https://github.com/huggingface/diffusers/pull/12169) | [[权重]](https://huggingface.co/mit-han-lab/dc-ae-lite-f32c32-sana-1.1-diffusers) - ✅ [2025/6/25] [SANA-Sprint](https://nvlabs.github.io/Sana/Sprint/) 被 ICCV'25 接收 🏖️ - ✅ [2025/6/4] SANA-Sprint [ComfyUI 节点](https://github.com/lawrence-cj/ComfyUI_ExtraModels) 发布 [[示例]](docs/ComfyUI/SANA-Sprint.json)。 - ✅ [2025/5/8] SANA-Sprint(单步扩散)diffusers 训练代码发布 [[指南]](https://github.com/huggingface/diffusers/blob/main/examples/research_projects/sana/README.md)。 - ✅ [2025/5/4] **SANA-1.5(推理时计算缩放)被 ICML-2025 接收。** 🎉🎉🎉 - ✅ [2025/3/22] 🔥**SANA-Sprint 演示托管在 Huggingface 上,快来试试吧!** 🎉 [[演示链接]](https://huggingface.co/spaces/Efficient-Large-Model/SanaSprint) - ✅ [2025/3/22] 🔥**SANA-1.5 已在 ComfyUI 中获得支持!** 🎉: [ComfyUI 指南](https://nvlabs.github.io/Sana/docs/ComfyUI/comfyui/) | [ComfyUI 工作流 SANA-1.5 4.8B](https://nvlabs.github.io/Sana/docs/ComfyUI/SANA-1.5_FlowEuler.json) - ✅ [2025/3/22] 🔥**SANA-Sprint 代码与权重发布!** 🎉 包括:[训练与推理](https://nvlabs.github.io/Sana/docs/sana_sprint/) 代码和 [权重](https://nvlabs.github.io/Sana/docs/model_zoo/#sana-sprint) / [HF](https://huggingface.co/collections/Efficient-Large-Model/sana-sprint) 均已发布。[[指南]](https://nvlabs.github.io/Sana/docs/sana_sprint/) - ✅ [2025/3/21] 🚀Sana + **推理缩放** 发布。[[指南]](https://nvlabs.github.io/Sana/docs/inference_scaling/) - ✅ [2025/3/16] 🔥**SANA-1.5 代码与权重发布!** 🎉 包括:[DDP/FSDP](https://nvlabs.github.io/Sana/docs/sana/#training) | [TAR 文件 WebDataset](https://nvlabs.github.io/Sana/docs/sana/#multi-scale-webdataset) | [多尺度](https://nvlabs.github.io/Sana/docs/sana/#training-with-fsdp) 训练代码和 [权重](https://nvlabs.github.io/Sana/docs/model_zoo/#sana-15) | [HF](https://huggingface.co/collections/Efficient-Large-Model/sana-15) 均已发布。 - ✅ [2025/3/14] 🏃**SANA-Sprint 来啦!** 🎉 Sana 的新单步/少步生成器。在 H100 上每 1024px 图像 0.1 秒,在 RTX 4090 上 0.3 秒。了解更多详情:[[页面]](https://nvlabs.github.io/Sana/Sprint/) | [[Arxiv]](https://arxiv.org/abs/2503.09641)。代码将随 `diffusers` 很快发布 - ✅ [2025/2/10] 🚀Sana + ControlNet 发布。[[指南]](https://nvlabs.github.io/Sana/docs/sana_controlnet/) | [[模型]](https://nvlabs.github.io/Sana/docs/model_zoo/#sana) | [[演示]](https://nv-sana.mit.edu/ctrlnet/) - ✅ [2025/1/30] 发布 CAME-8bit 优化器代码。训练期间节省更多 GPU 内存。[[如何配置]](https://github.com/NVlabs/Sana/blob/main/configs/sana_config/1024ms/Sana_1600M_img1024_CAME8bit.yaml#L86) - ✅ [2025/1/29] 🎉 🎉 🎉**SANA 1.5 发布!探索如何进行高效的训练与推理缩放!** 🚀[[技术报告]](https://arxiv.org/abs/2501.18427) - ✅ [2025/1/24] 4bit-Sana 发布,由 [SVDQuant 和 Nunchaku](https://github.com/mit-han-lab/nunchaku) 推理引擎驱动。现在可以在 **8GB** GPU 显存内运行您的 Sana。[[指南]](https://nvlabs.github.io/Sana/docs/4bit_sana/) [[演示]](https://svdquant.mit.edu/) [[模型]](https://nvlabs.github.io/Sana/docs/model_zoo/#sana) - ✅ [2025/1/24] DCAE-1.1 发布,重建质量更好。[[模型]](https://huggingface.co/mit-han-lab/dc-ae-f32c32-sana-1.1) [[diffusers]](https://huggingface.co/mit-han-lab/dc-ae-f32c32-sana-1.1-diffusers) - ✅ [2025/1/23] **Sana 被 ICLR-2025 接收为口头报告。** 🎉🎉🎉 - ✅ [2025/1/12] DC-AE 分块使 Sana-4K 在 22GB GPU 显存内推理 4096x4096px 图像。配合模型卸载和 8bit/4bit 量化。4K Sana 可在 **8GB** GPU 显存内运行。[[指南]](https://nvlabs.github.io/Sana/docs/model_zoo/#3-2k-4k-models) - ✅ [2025/1/11] Sana 代码库许可证变更为 Apache 2.0。 - ✅ [2025/1/10] 使用 8bit 量化推理 Sana。[[指南]](https://nvlabs.github.io/Sana/docs/8bit_sana/#quantization) - ✅ [2025/1/8] 4K 分辨率 [Sana 模型](https://nvlabs.github.io/Sana/docs/model_zoo/#sana) 在 [Sana-ComfyUI](https://github.com/lawrence-cj/ComfyUI_ExtraModels) 中获得支持,[工作流](https://nvlabs.github.io/Sana/docs/ComfyUI/Sana_FlowEuler_4K.json) 也已准备好。[[4K 指南]](https://nvlabs.github.io/Sana/docs/ComfyUI/comfyui/#a-sample-workflow-for-sana-4096x4096-image-18gb-gpu-is-needed) - ✅ [2025/1/8] 1.6B 4K 分辨率 [Sana 模型](https://nvlabs.github.io/Sana/docs/model_zoo/#sana) 发布:[[BF16 pth]](https://huggingface.co/Efficient-Large-Model/Sana_1600M_4Kpx_BF16) 或 [[BF16 diffusers]](https://huggingface.co/Efficient-Large-Model/Sana_1600M_4Kpx_BF16_diffusers)。🚀 在 20 秒内获取您的 4096x4096 分辨率图像!在 [Sana 页面](https://nvlabs.github.io/Sana/) 查找更多示例。感谢 [SUPIR](https://github.com/Fanghua-Yu/SUPIR) 的出色工作和支持。 - ✅ [2025/1/2] `diffusers` 管道中的错误已解决。[已解决的 PR](https://github.com/huggingface/diffusers/pull/10431) - ✅ [2025/1/2] 2K 分辨率 [Sana 模型](asset/docs/model_zoo.md) 在 [Sana-ComfyUI](https://github.com/lawrence-cj/ComfyUI_ExtraModels) 中获得支持,[工作流](asset/docs/ComfyUI/Sana_FlowEuler_2K.json) 也已准备好。 - ✅ [2024/12] 1.6B 2K 分辨率 [Sana 模型](asset/docs/model_zoo.md) 发布:[[BF16 pth]](https://huggingface.co/Efficient-Large-Model/Sana_1600M_2Kpx_BF16) 或 [[BF16 diffusers]](https://huggingface.co/Efficient-Large-Model/Sana_1600M_2Kpx_BF16_diffusers)。🚀 在 4 秒内获取您的 2K 分辨率图像!在 [Sana 页面](https://nvlabs.github.io/Sana/) 查找更多示例。感谢 [SUPIR](https://github.com/Fanghua-Yu/SUPIR) 的出色工作和支持。 - ✅ [2024/12] `diffusers` 支持 Sana-LoRA 微调!Sana-LoRA 的训练和收敛速度非常快。[[指南]](https://nvlabs.github.io/Sana/docs/sana_lora_dreambooth/) 或 [[diffusers 文档]](https://github.com/huggingface/diffusers/blob/main/examples/dreambooth/README_sana.md)。 - ✅ [2024/12] `diffusers` 已包含 Sana![所有 diffusers safetensors 格式的 Sana 模型](https://huggingface.co/collections/Efficient-Large-Model/sana) 已发布,diffusers 管道 `SanaPipeline`、`SanaPAGPipeline`、`DPMSolverMultistepScheduler(带 FlowMatching)` 现均已支持。我们为您准备了 [模型卡](https://nvlabs.github.io/Sana/docs/model_zoo/#sana) 供选择。 - ✅ [2024/12] 1.6B BF16 [Sana 模型](https://huggingface.co/Efficient-Large-Model/Sana_1600M_1024px_BF16) 发布,用于稳定微调。 - ✅ [2024/12] 我们发布了 Sana 的 [ComfyUI 节点](https://github.com/lawrence-cj/ComfyUI_ExtraModels)。[[指南]](https://nvlabs.github.io/Sana/docs/ComfyUI/comfyui/) - ✅ [2024/11] 所有多语言(表情符号和中文和英文)SFT 模型已发布:[1.6B-512px](https://huggingface.co/Efficient-Large-Model/Sana_1600M_512px_MultiLing)、[1.6B-1024px](https://huggingface.co/Efficient-Large-Model/Sana_1600M_1024px_MultiLing)、[600M-512px](https://huggingface.co/Efficient-Large-Model/Sana_600M_512px)、[600M-1024px](https://huggingface.co/Efficient-Large-Model/Sana_600M_1024px)。指标性能见[此处](#performance)。 - ✅ [2024/11] Sana Replicate API 在 [Sana-API](https://replicate.com/chenxwh/sana) 上线。 - ✅ [2024/11] 1.6B [Sana 模型](https://huggingface.co/collections/Efficient-Large-Model/sana) 发布。 - ✅ [2024/11] 训练、推理和评估代码发布。 - ✅ [2024/11] 正在集成 [`diffusers`](https://github.com/huggingface/diffusers/pull/9982)。 - [2024/10] [演示](https://nv-sana.mit.edu/) 发布。 - [2024/10] [DC-AE 代码](https://github.com/mit-han-lab/efficientvit/blob/master/applications/dc_ae/README.md) 和 [权重](https://huggingface.co/collections/mit-han-lab/dc-ae) 发布! - [2024/10] [论文](https://arxiv.org/abs/2410.10629) 在 Arxiv 上发布!
## 💡 简介 我们推出 **SANA**,一系列用于高分辨率图像和视频生成的高效扩散模型: - **[SANA](https://nvlabs.github.io/Sana/)**:高达 4K 分辨率的文本转图像生成,比 Flux-12B **小 20 倍且快 100 倍**。 - **[SANA-1.5](https://nvlabs.github.io/Sana/Sana-1.5/)**:高效的训练时和推理时计算缩放,以获得更好的质量。 - **[SANA-Sprint](https://nvlabs.github.io/Sana/Sprint/)**:通过 sCM 蒸馏实现单步/少步生成,在 H100 上**每 1024px 图像 0.1 秒**。 - **[SANA-Video/LongSANA](https://nvlabs.github.io/Sana/Video/)**:使用块线性注意力的高效视频生成 / 配合 [LongLive](https://github.com/NVlabs/LongLive)。 - **[Sol-RL](https://nvlabs.github.io/Sana/Sol-RL/)**:NVFP4 推理,BF16 训练 RL 实现 **4.64 倍更快收敛**。 - **[SANA-WM](https://nvlabs.github.io/Sana/WM/)**:2.6B 参数可控世界模型,生成 720p、1 分钟视频世界,具备 6 自由度相机控制。 **关键技术:** - **线性注意力**:用线性注意力替换 DiT 中的原始注意力,以实现高分辨率下的效率。 - **[DC-AE](https://hanlab.mit.edu/projects/dc-ae)**:32 倍图像压缩(对比传统的 8 倍)以减少潜在令牌。 - **仅解码器文本编码器**:具有上下文学习能力的现代仅解码器 LLM,实现更好的文本-图像对齐。 - **块因果线性注意力和因果 Mix-FFN**:用于长视频生成的高效注意力和前馈网络。 - **Flow-DPM-Solver**:通过高效训练和采样减少采样步数。 - **sCM 蒸馏**:通过连续时间一致性蒸馏实现单步/少步生成。 - **Sol-RL**:低精度(NVFP4)推理选择,高精度(BF16)优化,实现更快的 RL 训练。 - **可控世界建模**:高效长上下文建模和相机轨迹控制,实现一致的世界生成。 **总而言之**,SANA 是一个完全开源的框架,集成了**高效训练、快速推理和灵活部署**,适用于图像和视频生成。通过 4 位量化,可在笔记本电脑 GPU(**< 8GB 显存**)上部署。

teaser_page2

## 快速开始 ``` git clone https://github.com/NVlabs/Sana.git cd Sana && ./environment_setup.sh sana ``` ### 使用 🧨 diffusers 推理 ``` import torch from diffusers import SanaPipeline pipe = SanaPipeline.from_pretrained( "Efficient-Large-Model/SANA1.5_1.6B_1024px_diffusers", torch_dtype=torch.bfloat16, ) pipe.to("cuda") pipe.vae.to(torch.bfloat16) pipe.text_encoder.to(torch.bfloat16) prompt = 'a cyberpunk cat with a neon sign that says "Sana"' image = pipe( prompt=prompt, height=1024, width=1024, guidance_scale=4.5, num_inference_steps=20, generator=torch.Generator(device="cuda").manual_seed(42), )[0] image[0].save("sana.png") ``` ## 入门指南 - [📚 **完整文档**](https://nvlabs.github.io/Sana/docs/) - [安装指南](https://nvlabs.github.io/Sana/docs/installation/) - [模型库](https://nvlabs.github.io/Sana/docs/model_zoo/) - [Sana 推理与训练](https://nvlabs.github.io/Sana/docs/sana/) - [SANA-Sprint](https://nvlabs.github.io/Sana/docs/sana_sprint/) - [SANA-Video](https://nvlabs.github.io/Sana/docs/sana_video/) - [LongSANA](https://nvlabs.github.io/Sana/docs/longsana/) - [SANA-WM(即将推出)](https://nvlabs.github.io/Sana/docs/world-model/) - [ControlNet](https://nvlabs.github.io/Sana/docs/sana_controlnet/) - [LoRA / DreamBooth](https://nvlabs.github.io/Sana/docs/sana_lora_dreambooth/) - [Sol-RL 后训练](https://nvlabs.github.io/Sana/docs/sol_rl/) - [量化(4 位 / 8 位)](https://nvlabs.github.io/Sana/docs/4bit_sana/) - [ComfyUI](https://nvlabs.github.io/Sana/docs/ComfyUI/comfyui/) - [SGLang](https://nvlabs.github.io/Sana/docs/sglang/) ## 性能 ### 图像生成 (1024px) | 方法 (1024x1024) | 吞吐量 (样本/秒) | 延迟 (秒) | 参数量 (B) | 加速比 | FID 👇 | CLIP 👆 | GenEval 👆 | DPG 👆 | |---|---|---|---|---|---|---|---|---| | FLUX-dev | 0.04 | 23.0 | 12.0 | 1.0× | 10.15 | 27.47 | 0.67 | 84.0 | | **Sana-0.6B** | 1.7 | 0.9 | 0.6 | 39.5× | _5.81_ | 28.36 | 0.64 | 83.6 | | **[Sana-0.6B](https://huggingface.co/Efficient-Large-Model/Sana_600M_1024px)** | 1.7 | 0.9 | 0.6 | 39.5× | **5.61** | 28.80 | 0.68 | _84.2_ | | **[Sana-1.6B](https://huggingface.co/Efficient-Large-Model/Sana_1600M_1024px_MultiLing)** | 1.0 | 1.2 | 1.6 | 23.3× | 5.92 | _28.94_ | _0.69_ | 84.5 | | **[Sana-1.5 1.6B](https://huggingface.co/Efficient-Large-Model/SANA1.5_1.6B_1024px_diffusers)** | 1.0 | 1.2 | 1.6 | 23.3× | 5.70 | 29.12 | **0.82** | 84.5 | | **[Sana-1.5 4.8B](https://huggingface.co/Efficient-Large-Model/SANA1.5_4.8B_1024px_diffusers)** | 0.26 | 4.2 | 4.8 | 6.5× | 5.99 | **29.23** | 0.81 | **84.7** | ### 视频生成 (VBench 720p) | 模型 | 延迟 (秒) | 参数量 (B) | VBench 总分 ↑ | 质量 ↑ | 语义 ↑ | |---|---|---|---|---|---| | Wan-2.1-14B | 1897 | 14 | 83.73 | 85.77 | 75.58 | | Wan-2.1-1.3B | 400 | 1.3 | 83.38 | 85.67 | 74.22 | | **SANA-Video-2B** | **36** | **2** | **84.05** | 84.63 | **81.73** | # 💪 待办事项列表 我们将尽力实现 - [✅] 训练代码 - [✅] 推理代码 - [✅] 模型库 - [✅] [ComfyUI 节点](https://github.com/lawrence-cj/ComfyUI_ExtraModels)(SANA, SANA-1.5, SANA-Sprint) - [✅] DC-AE Diffusers - [✅] Sana 合并到 Diffusers(https://github.com/huggingface/diffusers/pull/9982) - [✅] 由 [@paul](https://github.com/sayakpaul) 实现的 LoRA 训练(`diffusers`: https://github.com/ huggingface/diffusers/pull/10234) - [✅] 2K/4K 分辨率模型。(感谢 [@SUPIR](https://github.com/Fanghua-Yu/SUPIR) 提供 4K 超分辨率模型) - [✅] 8 位 / 4 位笔记本电脑开发 - [✅] ControlNet(训练、推理和模型) - [✅] FSDP 训练 - [✅] SANA-1.5(更大模型尺寸 / 推理缩放) - [✅] SANA-Sprint:少步生成器 - [✅] 更快的 DCAE-Lite [权重](https://huggingface.co/dc-ai/dc-ae-lite-f32c32-diffusers) - [✅] 更好的 F32/F64 重建 [VAEs](https://github.com/dc-ai-projects/DC-Gen) - [✅] SANA-Video:线性 DiT 视频模型,以及实时分钟级视频生成 - [✅] RL 后训练:与 [Cosmos-RL](https://github.com/nvidia-cosmos/cosmos-rl) 合作 - [] SANA 世界模型 - [] SANA 流式视频到视频编辑 - [🚀] 未来再见 ## 🤗 致谢 感谢以下开源项目: **感谢以下开源代码库的出色工作和代码库!** - [PixArt-α](https://github.com/PixArt-alpha/PixArt-alpha) - [PixArt-Σ](https://github.com/PixArt-alpha/PixArt-sigma) - [diffusers](https://github.com/huggingface/diffusers) - [Efficient-ViT](https://github.com/mit-han-lab/efficientvit) - [ComfyUI_ExtraModels](https://github.com/city96/ComfyUI_ExtraModels) - [SVDQuant and Nunchaku](https://github.com/mit-han-lab/nunchaku) - [Open-Sora](https://github.com/hpcaitech/Open-Sora) - [Wan](https://github.com/Wan-Video/Wan2.1) - [LongLive](https://github.com/NVlabs/LongLive) - [Cosmos-RL](https://github.com/nvidia-cosmos/cosmos-rl) 感谢 [Paper2Video](https://showlab.github.io/Paper2Video/) 生成 Jeason 展示 SANA 的视频😊。更多详情请参考 [Paper2Video](https://showlab.github.io/Paper2Video/)。
Presenting Video of SANA
## 贡献者 感谢这些出色的贡献者: ## 🌟 Star 历史 [![Star History Chart](https://api.star-history.com/svg?repos=NVlabs/sana&type=Date)](https://www.star-history.com/#NVlabs/sana&Date) # 📖 BibTeX ``` @misc{xie2024sana, title={Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer}, author={Enze Xie and Junsong Chen and Junyu Chen and Han Cai and Haotian Tang and Yujun Lin and Zhekai Zhang and Muyang Li and Ligeng Zhu and Yao Lu and Song Han}, year={2024}, eprint={2410.10629}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2410.10629}, } ```
点击展开所有 BibTeX 引用 ``` @misc{xie2025sana, title={SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer}, author={Xie, Enze and Chen, Junsong and Zhao, Yuyang rectangle and Yu, Jincheng and Zhu, Ligeng and Lin, Yujun and Zhang, Zhekai and Li, Muyang and Chen, Junyu and Cai, Han and others}, year={2025}, eprint={2501.18427}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2501.18427}, } @misc{chen2025sanasprint, title={SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation}, author={Junsong Chen and Shuchen Xue and Yuyang Zhao and Jincheng Yu graves and Sayak Paul and Junyu Chen and Han Cai and Song Han and Enze Xie}, year={2025}, eprint={2503.09641}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.09641}, } @misc{chen2025sanavideo, title={SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer}, author={Chen, Junsong and Zhao, Yuyang and Yu, Jincheng and Chu, Ruihang and Chen, Junyu and Yang, Shuai and Wang, Xianbang and Pan, Yicheng and Zhou, Daquan and Ling, Huan and others}, year={2025}, eprint={2509.24695}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2509.24695}, } @misc{li2026fp4, title={FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling}, author={Li, Yitong and Chen, Junsong and Xue, Shuchen and Zeren, Pengcuo and Fu, Siyuan and Yang, Dinghao and Tang, Yangyang and Bai, Junjie and Luo, Ping and Han, Song and others}, year={2026} eprint={2604.06916}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2604.06916}, } @misc{zhu2026sanawm, title={SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer}, author={Haoyi Zhu and Haozhe Liu and Yuyang Zhao and Tian Ye and Junsong Chen and Jincheng Yu and Tong He and Song Han and Enze Xie}, year={2026}, eprint={2605.15178}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2605.15178}, } ```
标签:Apex, ControlNet, Transformer架构, Vectored Exception Handling, 人工智能, 凭据扫描, 图像合成, 图像处理, 强化学习, 扩散模型, 机器学习, 水印技术, 深度学习, 生成式AI, 用户模式Hook绕过, 索引, 线性扩散Transformer, 视频生成, 计算机视觉, 逆向工具, 量化推理, 高分辨率图像生成, 高效AI, 高效计算