NVIDIA lanza Sana de código abierto - Un modelo de IA para la generación eficiente de imágenes 4K

NVIDIA ha lanzado recientemente Sana, un importante proyecto de código abierto. Este modelo de generación de texto a imagen tiene como característica principal su capacidad para generar eficientemente imágenes de hasta 4096×4096 de resolución. Más impresionante aún es que el modelo optimizado puede ejecutarse en GPUs de portátiles convencionales con 16GB de VRAM.

Características principales

Ultra eficiencia: El modelo Sana-0.6B genera imágenes de resolución 1024×1024 en menos de un segundo
Implementación ligera: Se ejecuta en GPUs de portátiles con 16GB de VRAM
Alta resolución: Soporta generación de imágenes de hasta 4K (4096×4096) de resolución
Soporte de código abierto: Incluye soporte oficial para ComfyUI y herramientas de entrenamiento LoRA

Innovaciones técnicas

El alto rendimiento de Sana se logra a través de varias innovaciones técnicas:

Autocodificador de compresión profunda: Logra una tasa de compresión de imagen de 32x, reduciendo significativamente los tokens latentes
DiT lineal: Utiliza mecanismo de atención lineal en lugar de atención tradicional, reduciendo la complejidad de O(N²) a O(N)
Codificador de texto estilo decodificador: Utiliza Gemma como codificador de texto para mejorar la comprensión textual
Entrenamiento e inferencia eficientes: El innovador Flow-DPM-Solver reduce los pasos de inferencia para una generación más rápida

Demo en línea

Experimente las potentes capacidades de Sana a través de la demo en línea:

Sana Online Demo

Integración con ComfyUI

Sana ahora soporta oficialmente ComfyUI, permitiendo a los usuarios utilizar fácilmente el modelo Sana a través de flujos de trabajo de ComfyUI. Además, se proporcionan herramientas oficiales de entrenamiento LoRA para el entrenamiento personalizado de modelos.

Desarrollo futuro

El equipo de NVIDIA ha completado el desarrollo del código de entrenamiento, código de inferencia, lanzamiento de biblioteca de modelos, soporte de ComfyUI y entrenamiento LoRA. Los planes futuros incluyen desarrollar soporte para ControlNet, optimización de dispositivos 8bit/4bit, modelos a mayor escala y el lanzamiento de Sana 1.5 enfocado en cuerpo/rostro humano, renderizado de texto, fotorrealismo y eficiencia.

RunningHub

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD

优云智算

Desafío ComfyUI #1: ¡Participa y gana $100!