Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
THUDM открывает исходный код новых моделей генерации изображений: CogView3 и CogView-3Plus
THUDM недавно открыла исходный код своих новейших моделей генерации изображений CogView3 и CogView-3Plus-3B на GitHub. Эти две модели представляют собой последние достижения в области генерации изображений по тексту, демонстрируя высокую производительность и эффективность.
CogView3: инновации в каскадной диффузии
CogView3 — это система генерации изображений по тексту на основе каскадной диффузии. Она использует новую структуру “relay diffusion”, которая разбивает процесс генерации высококачественных изображений на несколько этапов. Благодаря процессу relay super-resolution система сначала создает изображения низкого разрешения, затем добавляет к ним гауссовский шум и запускает новый диффузионный процесс с этих зашумленных изображений.
Согласно исследованиям THUDM, CogView3 превосходит SDXL по результатам пользовательских оценок с долей побед до 77,0%. Кроме того, время генерации CogView3 составляет лишь одну десятую от времени SDXL, что особенно важно для практического применения.
CogView-3Plus-3B: легковесная модель DiT
Вместе с CogView3 THUDM также открыла исходный код CogView-3Plus-3B — модели генерации изображений на архитектуре DiT (Diffusion Transformer). Модель DiT сочетает преимущества диффузионных моделей и трансформеров, демонстрируя высокую производительность в задачах генерации изображений.
CogView-3Plus-3B — это относительно легкая модель (всего 3 миллиарда параметров), которая обеспечивает более быструю генерацию и меньшие требования к ресурсам при сохранении высокого качества изображений.
Вклад в открытое сообщество
Открывая исходный код CogView3 и CogView-3Plus-3B, THUDM предоставляет ценные ресурсы для исследовательского сообщества, а также дает разработчикам и компаниям возможность интегрировать передовые технологии генерации изображений в практические приложения. Это поможет дальнейшему развитию технологий генерации изображений по тексту и их применению.
Перспективы
С открытием исходного кода CogView3 и CogView-3Plus-3B можно ожидать появления новых инновационных приложений на их основе. От креативного дизайна до генерации контента и визуальных помощников — эти модели имеют широкий спектр потенциальных сценариев использования.
Кроме того, это станет ценным ориентиром для других исследовательских команд и может вдохновить новые инновации в области генерации изображений.
Ссылки
- Репозиторий CogView3 на GitHub: https://github.com/THUDM/CogView3