NVIDIA lanza Sana de código abierto - Un modelo de IA para la generación eficiente de imágenes 4K
NVIDIA ha lanzado recientemente Sana, un importante proyecto de código abierto. Este modelo de generación de texto a imagen tiene como característica principal su capacidad para generar eficientemente imágenes de hasta 4096×4096 de resolución. Más impresionante aún es que el modelo optimizado puede ejecutarse en GPUs de portátiles convencionales con 16GB de VRAM.
Características principales
- Ultra eficiencia: El modelo Sana-0.6B genera imágenes de resolución 1024×1024 en menos de un segundo
- Implementación ligera: Se ejecuta en GPUs de portátiles con 16GB de VRAM
- Alta resolución: Soporta generación de imágenes de hasta 4K (4096×4096) de resolución
- Soporte de código abierto: Incluye soporte oficial para ComfyUI y herramientas de entrenamiento LoRA
Innovaciones técnicas
El alto rendimiento de Sana se logra a través de varias innovaciones técnicas:
- Autocodificador de compresión profunda: Logra una tasa de compresión de imagen de 32x, reduciendo significativamente los tokens latentes
- DiT lineal: Utiliza mecanismo de atención lineal en lugar de atención tradicional, reduciendo la complejidad de O(N²) a O(N)
- Codificador de texto estilo decodificador: Utiliza Gemma como codificador de texto para mejorar la comprensión textual
- Entrenamiento e inferencia eficientes: El innovador Flow-DPM-Solver reduce los pasos de inferencia para una generación más rápida
Demo en línea
Experimente las potentes capacidades de Sana a través de la demo en línea:
Integración con ComfyUI
Sana ahora soporta oficialmente ComfyUI, permitiendo a los usuarios utilizar fácilmente el modelo Sana a través de flujos de trabajo de ComfyUI. Además, se proporcionan herramientas oficiales de entrenamiento LoRA para el entrenamiento personalizado de modelos.
Desarrollo futuro
El equipo de NVIDIA ha completado el desarrollo del código de entrenamiento, código de inferencia, lanzamiento de biblioteca de modelos, soporte de ComfyUI y entrenamiento LoRA. Los planes futuros incluyen desarrollar soporte para ControlNet, optimización de dispositivos 8bit/4bit, modelos a mayor escala y el lanzamiento de Sana 1.5 enfocado en cuerpo/rostro humano, renderizado de texto, fotorrealismo y eficiencia.