Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
THUDM открывает исходный код CogView4 — DiT-модель генерации изображений с поддержкой китайского языка
THUDM официально открыла исходный код мультимодальной модели генерации CogView4 — первой модели Diffusion Transformer (DiT) с нативной поддержкой китайского языка и возможностью генерации китайских иероглифов. Модель достигла топового результата 85.13 в бенчмарке DPG-Bench, продемонстрировав выдающееся качество генерации изображений.
Ключевые особенности
Двуязычная генерация
- Улучшенный текстовый энкодер GLM-4 с поддержкой китайско-английского ввода
- Обучена на миллионах пар изображение-текст на китайском и английском языках
- Достигает 61.68% F1 по точности генерации китайских иероглифов
Интеллектуальная обработка текста
- Поддержка динамической длины текста (до 1024 токенов)
- Снижает избыточные вычисления на 50% по сравнению с фиксированной длиной
- Повышает эффективность обучения до 30%
Гибкое разрешение
- Поддержка вывода от 512px до 2048px
- Смешанное обучение с разными разрешениями для различных сценариев
- Оптимизирована для соотношений сторон соцсетей (9:16, 1:1, 4:3)
Технические преимущества
Инновационная архитектура “Relay Diffusion”:
- Базовая генерация: Быстрое создание контура в низком разрешении
- Суперразрешение: Детализация через flow-matching
- Динамическое планирование шума: Оптимизация баланса между скоростью и качеством
Результаты бенчмарков:
- DPG-Bench: 85.13 (SDXL 74.65 / DALL-E 3 83.50)
- T2I-CompBench (сложные сцены): 0.3869
- 114% улучшение точности генерации китайских иероглифов
Оптимизация для оборудования
Многоуровневая оптимизация для разных устройств:
- Базовый режим: работает на RTX 3090 для генерации 512x512
- Оптимизация памяти: снижает использование VRAM до 13GB за счет выгрузки на CPU
- 4-битная квантизация: ускоряет вывод с помощью сжатого текстового энкодера
Использование
Доступна через HuggingFace Spaces для мгновенного тестирования. Разработчики могут получить полный код:
- Смешанные китайско-английские подсказки
- Пользовательские размеры вывода
- Поддержка пакетной генерации
Ресурсы
THUDM планирует выпустить модули ControlNet, поддержку workflow для ComfyUI и инструменты для дообучения в течение трех месяцев, чтобы повысить доступность для нетехнических пользователей.