NVIDIA открывает исходный код Sana - ИИ-модель для эффективной генерации 4K изображений

NVIDIA недавно выпустила Sana — значительный проект с открытым исходным кодом. Ключевая особенность этой модели генерации изображений из текста — способность эффективно генерировать изображения до разрешения 4096×4096. Еще более впечатляюще то, что оптимизированная модель может работать на GPU потребительских ноутбуков с 16 ГБ видеопамяти.

Ключевые особенности

Сверхэффективность: Модель Sana-0.6B генерирует изображения разрешения 1024×1024 менее чем за секунду
Легкое развертывание: Работает на GPU ноутбуков с 16 ГБ видеопамяти
Высокое разрешение: Поддерживает генерацию изображений до 4K (4096×4096) разрешения
Поддержка открытого исходного кода: Включена официальная поддержка ComfyUI и инструменты обучения LoRA

Технические инновации

Высокая производительность Sana достигается через несколько технических инноваций:

Глубокий сжимающий автокодировщик: Достигает 32x коэффициента сжатия изображений, значительно сокращая латентные токены
Линейный DiT: Использует механизм линейного внимания вместо традиционного внимания, сокращая сложность с O(N²) до O(N)
Декодерный текстовый энкодер: Использует Gemma как текстовый энкодер для улучшенного понимания текста
Эффективное обучение и вывод: Инновационный Flow-DPM-Solver сокращает шаги вывода для более быстрой генерации

Онлайн-демо

Испытайте мощные возможности Sana через онлайн-демо:

Invalid or blocked iframe URL.

Интеграция с ComfyUI

Sana теперь официально поддерживает ComfyUI, позволяя пользователям легко использовать модель Sana через рабочие процессы ComfyUI. Дополнительно предоставляются официальные инструменты обучения LoRA для персонализированного обучения моделей.

Будущее развитие

Команда NVIDIA завершила разработку кода обучения, кода вывода, выпуска библиотеки моделей, поддержки ComfyUI и обучения LoRA. Планы на будущее включают разработку поддержки ControlNet, оптимизацию устройств 8bit/4bit, модели большего масштаба и выпуск Sana 1.5, сосредоточенной на теле/лице человека, рендеринге текста, фотореализме и эффективности.