Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиBAGEL: ByteDance открывает исходный код унифицированной мультимодальной базовой модели для понимания и генерации текста, изображений и видео

BAGEL: ByteDance открывает исходный код унифицированной мультимодальной базовой модели для понимания и генерации текста, изображений и видео

BAGEL

BAGEL - это унифицированная мультимодальная базовая модель с открытым исходным кодом от ByteDance, имеющая 7B активных параметров (14B всего). Она может обрабатывать и генерировать текст, изображения и видео, обеспечивая комплексное мультимодальное понимание и создание. BAGEL достигает ведущих результатов на основных публичных бенчмарках и поддерживает высококачественную генерацию текста в изображения, продвинутое редактирование изображений и возможности моделирования мира. BAGEL

Ключевые особенности

  • Унифицированное мультимодальное моделирование: BAGEL может обрабатывать текстовые, изображения и видео входы одновременно, а выходы могут быть текстом, изображениями или комбинацией. Она подходит для многоходовых диалогов, генерации изображений и сценариев понимания видео.
  • Мощная генерация и редактирование: Поддерживает генерацию высококачественных изображений и видео-кадров, продвинутое редактирование изображений (такое как перенос стиля, 3D анимация, стиль плюшевых игрушек) и гибкое визуальное манипулирование.
  • Моделирование мира и навигация: Обученная на крупномасштабных видео и веб-данных, BAGEL изучает динамические знания реального мира, поддерживая задачи многовидового синтеза и навигации по миру.
  • Многоходовое взаимодействие и рассуждение: Обеспечивает многоходовые мультимодальные диалоги и включает рассуждение Chain-of-Thought (CoT), превращая короткие промпты в детальные, логически согласованные выходы.

Техническая архитектура

BAGEL использует архитектуру Mixture-of-Transformer-Experts (MoT), сочетая два независимых визуальных энкодера для захвата пиксельных и семантических особенностей. Общая структура основана на парадигме “предсказание следующей группы токенов”, с предобучением, продолженным обучением и контролируемой дообучением на крупномасштабных чередующихся мультимодальных данных, что приводит к сильным возможностям понимания и генерации.

  • Визуальное понимание: Использует ViT энкодер для преобразования изображений в токены, улучшая понимание визуального контента.
  • Визуальная генерация: Интегрирует FLUX.1-schnell вариационный автоэнкодер (VAE) для высококачественной генерации изображений.
  • Обобщенное причинное внимание: Эффективно взаимодействует с мультимодальными токенами, улучшая согласованность контекста в рассуждении и генерации.

Производительность

BAGEL демонстрирует сильные результаты на публичных бенчмарках:

  • Визуальное понимание: Превосходит подобные модели с открытым исходным кодом на MME, MMBench, MM-Vet, MathVista и других бенчмарках.
  • Генерация текста в изображения: Достигает общий GenEval счет 0.88, превосходя FLUX-1-dev, SD3-Medium и Janus-Pro-7B.
  • Редактирование изображений: Превосходит на GEdit-Bench-EN и IntelligentBench, с более высокой структурной согласованностью и качеством промптов, чем основные модели.
ЗадачаМетрика/БенчмаркСчет BAGELСравнительные модели
Визуальное пониманиеMME2388Qwen2.5-VL-7B: 2347
MMBench85.0Janus-Pro-7B: 79.2
MM-Vet67.2Qwen2.5-VL-7B: 67.1
Текст в изображенияGenEval0.88FLUX-1-dev: 0.82
Редактирование изображенийGEdit-Bench-EN SC7.36Step1X-Edit: 7.09
IntelligentBench44.0Step1X-Edit: 14.9

Возникающие способности

По мере увеличения масштаба предобучения, BAGEL демонстрирует поэтапное возникновение способностей: раннее мультимодальное понимание и генерация, средний этап базового редактирования изображений, и позднее сложное интеллектуальное редактирование, гибкое визуальное манипулирование и моделирование мира. Исследования показывают, что сочетание VAE и ViT особенностей значительно улучшает интеллектуальное редактирование, подчеркивая важность визуально-семантического контекста для продвинутого мультимодального рассуждения.

Сценарии применения

  • Генерация и редактирование ИИ-изображений
  • Мультимодальные диалоги и вопросы-ответы
  • Понимание видео и моделирование мира
  • Кросс-модальное создание контента и помощь

Открытый исходный код и лицензия

BAGEL выпущен с открытым исходным кодом под лицензией Apache 2.0. Веса модели, код и документация доступны по ссылкам ниже. Модель дообучена и интегрирована из Qwen2.5-7B-Instruct, siglip-so400m-14-384-flash-attn2 и FLUX.1-schnell VAE.

Связанные ссылки


Источники