Skip to content
帮助 ComfyUI Wiki 移除广告 成为赞助者
新闻NVIDIA开源Sana - 高效生成4K图像的AI模型

NVIDIA开源Sana - 高效生成4K图像的AI模型

NVIDIA最近发布了一个重要的开源项目Sana,这是一个文本到图像生成模型,其最大特点是能够高效生成高达4096×4096分辨率的图像。更令人惊喜的是,该模型经过优化后可以在配备16GB显存的普通笔记本GPU上运行。

核心特点

  • 超高效率: Sana-0.6B模型生成1024×1024分辨率的图像仅需不到1秒
  • 轻量部署: 可在16GB显存的笔记本GPU上运行
  • 高分辨率: 支持生成高达4K (4096×4096) 分辨率的图像
  • 开源支持: 已官方支持ComfyUI,并提供LoRA训练工具

技术创新

Sana的高效性能主要得益于以下几个技术创新:

  1. 深度压缩自编码器: 实现了32倍的图像压缩比,大幅减少了潜在标记的数量
  2. 线性DiT: 采用线性注意力机制替代传统注意力,将复杂度从O(N²)降低到O(N)
  3. 解码器型文本编码器: 使用Gemma作为文本编码器,提升了文本理解能力
  4. 高效训练和推理策略: 创新的Flow-DPM-Solver减少了推理步骤,提升了生成速度

在线体验

您可以通过以下在线demo体验Sana的强大功能:

Sana Online Demo

ComfyUI集成

Sana已经官方支持ComfyUI,用户可以通过ComfyUI的工作流轻松使用Sana模型。同时,官方还提供了LoRA训练工具,支持用户进行个性化模型训练。

未来发展

NVIDIA团队已经完成了包括训练代码、推理代码、模型库发布、ComfyUI支持、LoRA训练等功能的开发。未来计划开发ControlNet支持、8bit/4bit设备优化、更大规模模型等功能,并推出专注于人体/人脸/文本渲染/真实感/效率的Sana1.5版本。

相关链接