THUDM открывает исходный код новых моделей генерации изображений: CogView3 и CogView-3Plus

THUDM недавно открыла исходный код своих новейших моделей генерации изображений CogView3 и CogView-3Plus-3B на GitHub. Эти две модели представляют собой последние достижения в области генерации изображений по тексту, демонстрируя высокую производительность и эффективность.

CogView3: инновации в каскадной диффузии

CogView3 — это система генерации изображений по тексту на основе каскадной диффузии. Она использует новую структуру "relay diffusion", которая разбивает процесс генерации высококачественных изображений на несколько этапов. Благодаря процессу relay super-resolution система сначала создает изображения низкого разрешения, затем добавляет к ним гауссовский шум и запускает новый диффузионный процесс с этих зашумленных изображений.

Согласно исследованиям THUDM, CogView3 превосходит SDXL по результатам пользовательских оценок с долей побед до 77,0%. Кроме того, время генерации CogView3 составляет лишь одну десятую от времени SDXL, что особенно важно для практического применения.

CogView-3Plus-3B: легковесная модель DiT

Вместе с CogView3 THUDM также открыла исходный код CogView-3Plus-3B — модели генерации изображений на архитектуре DiT (Diffusion Transformer). Модель DiT сочетает преимущества диффузионных моделей и трансформеров, демонстрируя высокую производительность в задачах генерации изображений.

CogView-3Plus-3B — это относительно легкая модель (всего 3 миллиарда параметров), которая обеспечивает более быструю генерацию и меньшие требования к ресурсам при сохранении высокого качества изображений.

Вклад в открытое сообщество

Открывая исходный код CogView3 и CogView-3Plus-3B, THUDM предоставляет ценные ресурсы для исследовательского сообщества, а также дает разработчикам и компаниям возможность интегрировать передовые технологии генерации изображений в практические приложения. Это поможет дальнейшему развитию технологий генерации изображений по тексту и их применению.

Перспективы

С открытием исходного кода CogView3 и CogView-3Plus-3B можно ожидать появления новых инновационных приложений на их основе. От креативного дизайна до генерации контента и визуальных помощников — эти модели имеют широкий спектр потенциальных сценариев использования.

Кроме того, это станет ценным ориентиром для других исследовательских команд и может вдохновить новые инновации в области генерации изображений.

Ссылки

Репозиторий CogView3 на GitHub: https://github.com/THUDM/CogView3

CogView3: инновации в каскадной диффузии

CogView-3Plus-3B: легковесная модель DiT

Вклад в открытое сообщество

Перспективы

Ссылки

Комментарии