PixelFlow: Генеративные модели, работающие напрямую в пиксельном пространстве

Исследователи из Гонконгского университета и Adobe совместно разработали PixelFlow, семейство моделей генерации изображений, которые работают напрямую в сыром пиксельном пространстве. В отличие от доминирующих в настоящее время моделей латентного пространства, PixelFlow принимает совершенно новый подход к генерации изображений.

Инновационные особенности

Наиболее значительной инновацией PixelFlow является то, что он работает напрямую в сыром пиксельном пространстве, а не в латентном пространстве, как большинство основных моделей. Этот подход упрощает процесс генерации изображений со следующими преимуществами:

Отсутствие зависимости от предобученных вариационных автоэнкодеров (VAE)
Поддержка сквозного обучения всей модели
Достижение доступной вычислительной стоимости в пиксельном пространстве через эффективное каскадное моделирование потока

В бенчмарке генерации изображений с условием класса ImageNet 256x256 PixelFlow достиг оценки FID 1.98, в то время как результаты текст-в-изображение демонстрируют его превосходство в качестве изображений, художественности и семантическом контроле.

Онлайн-демо

Команда PixelFlow предоставляет онлайн-демо на HuggingFace для пользователей, чтобы испытать возможности генерации изображений модели: https://huggingface.co/spaces/ShoufaChen/PixelFlow

Библиотека моделей

PixelFlow в настоящее время предлагает две модели:

Модель класс-в-изображение: 677M параметров, оценка FID 1.98
Модель текст-в-изображение: 882M параметров

Подробная информация об этих двух моделях следующая:

:|:

:|: :|:

--:| | PixelFlow | Класс-в-изображение | 677M | 1.98 | 🤗 | | PixelFlow | Текст-в-изображение | 882M | N/A | 🤗 |

Обе модели доступны на платформе HuggingFace.

Перспективы на будущее

Исследовательская команда надеется, что эта новая парадигма вдохновит и откроет новые возможности для моделей визуальной генерации следующего поколения. Подход PixelFlow может снизить порог разработки для генеративных моделей, вдохновляя более эффективные и легковесные методы генерации изображений.

PixelFlow: Генеративные модели, работающие напрямую в пиксельном пространстве

Инновационные особенности

Онлайн-демо

Библиотека моделей

Перспективы на будущее

Связанные ссылки

Комментарии