NVIDIA开源Sana - 高效生成4K图像的AI模型

最后更新：2025年1月11日news

NVIDIA推出全新的Sana模型，可在普通笔记本GPU上快速生成高达4K分辨率的图像，并已支持ComfyUI集成

NVIDIA最近发布了一个重要的开源项目Sana，这是一个文本到图像生成模型，其最大特点是能够高效生成高达4096×4096分辨率的图像。更令人惊喜的是，该模型经过优化后可以在配备16GB显存的普通笔记本GPU上运行。

核心特点

超高效率: Sana-0.6B模型生成1024×1024分辨率的图像仅需不到1秒
轻量部署: 可在16GB显存的笔记本GPU上运行
高分辨率: 支持生成高达4K (4096×4096) 分辨率的图像
开源支持: 已官方支持ComfyUI，并提供LoRA训练工具

技术创新

Sana的高效性能主要得益于以下几个技术创新：

深度压缩自编码器: 实现了32倍的图像压缩比，大幅减少了潜在标记的数量
线性DiT: 采用线性注意力机制替代传统注意力，将复杂度从O(N²)降低到O(N)
解码器型文本编码器: 使用Gemma作为文本编码器，提升了文本理解能力
高效训练和推理策略: 创新的Flow-DPM-Solver减少了推理步骤，提升了生成速度

在线体验

您可以通过以下在线demo体验Sana的强大功能：

Invalid or blocked iframe URL.

ComfyUI集成

Sana已经官方支持ComfyUI，用户可以通过ComfyUI的工作流轻松使用Sana模型。同时，官方还提供了LoRA训练工具，支持用户进行个性化模型训练。

未来发展

NVIDIA团队已经完成了包括训练代码、推理代码、模型库发布、ComfyUI支持、LoRA训练等功能的开发。未来计划开发ControlNet支持、8bit/4bit设备优化、更大规模模型等功能，并推出专注于人体/人脸/文本渲染/真实感/效率的Sana1.5版本。

相关链接

评论

使用 GitHub 登录后即可参与讨论。

评论加载中…

NVIDIA开源Sana - 高效生成4K图像的AI模型 | ComfyUI Wiki