Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиTHUDM открывает исходный код CogView4 — DiT-модель генерации изображений с поддержкой китайского языка

THUDM открывает исходный код CogView4 — DiT-модель генерации изображений с поддержкой китайского языка

CogView4 Sample Outputs

THUDM официально открыла исходный код мультимодальной модели генерации CogView4 — первой модели Diffusion Transformer (DiT) с нативной поддержкой китайского языка и возможностью генерации китайских иероглифов. Модель достигла топового результата 85.13 в бенчмарке DPG-Bench, продемонстрировав выдающееся качество генерации изображений.

Ключевые особенности

Двуязычная генерация

  • Улучшенный текстовый энкодер GLM-4 с поддержкой китайско-английского ввода
  • Обучена на миллионах пар изображение-текст на китайском и английском языках
  • Достигает 61.68% F1 по точности генерации китайских иероглифов

Интеллектуальная обработка текста

  • Поддержка динамической длины текста (до 1024 токенов)
  • Снижает избыточные вычисления на 50% по сравнению с фиксированной длиной
  • Повышает эффективность обучения до 30%

Гибкое разрешение

  • Поддержка вывода от 512px до 2048px
  • Смешанное обучение с разными разрешениями для различных сценариев
  • Оптимизирована для соотношений сторон соцсетей (9:16, 1:1, 4:3)

Технические преимущества

Инновационная архитектура “Relay Diffusion”:

  1. Базовая генерация: Быстрое создание контура в низком разрешении
  2. Суперразрешение: Детализация через flow-matching
  3. Динамическое планирование шума: Оптимизация баланса между скоростью и качеством

Результаты бенчмарков:

  • DPG-Bench: 85.13 (SDXL 74.65 / DALL-E 3 83.50)
  • T2I-CompBench (сложные сцены): 0.3869
  • 114% улучшение точности генерации китайских иероглифов

Оптимизация для оборудования

Многоуровневая оптимизация для разных устройств:

  • Базовый режим: работает на RTX 3090 для генерации 512x512
  • Оптимизация памяти: снижает использование VRAM до 13GB за счет выгрузки на CPU
  • 4-битная квантизация: ускоряет вывод с помощью сжатого текстового энкодера

Использование

Доступна через HuggingFace Spaces для мгновенного тестирования. Разработчики могут получить полный код:

  • Смешанные китайско-английские подсказки
  • Пользовательские размеры вывода
  • Поддержка пакетной генерации

Ресурсы

THUDM планирует выпустить модули ControlNet, поддержку workflow для ComfyUI и инструменты для дообучения в течение трех месяцев, чтобы повысить доступность для нетехнических пользователей.