Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
BAGEL: ByteDance открывает исходный код унифицированной мультимодальной базовой модели для понимания и генерации текста, изображений и видео
BAGEL - это унифицированная мультимодальная базовая модель с открытым исходным кодом от ByteDance, имеющая 7B активных параметров (14B всего). Она может обрабатывать и генерировать текст, изображения и видео, обеспечивая комплексное мультимодальное понимание и создание. BAGEL достигает ведущих результатов на основных публичных бенчмарках и поддерживает высококачественную генерацию текста в изображения, продвинутое редактирование изображений и возможности моделирования мира.
Ключевые особенности
- Унифицированное мультимодальное моделирование: BAGEL может обрабатывать текстовые, изображения и видео входы одновременно, а выходы могут быть текстом, изображениями или комбинацией. Она подходит для многоходовых диалогов, генерации изображений и сценариев понимания видео.
- Мощная генерация и редактирование: Поддерживает генерацию высококачественных изображений и видео-кадров, продвинутое редактирование изображений (такое как перенос стиля, 3D анимация, стиль плюшевых игрушек) и гибкое визуальное манипулирование.
- Моделирование мира и навигация: Обученная на крупномасштабных видео и веб-данных, BAGEL изучает динамические знания реального мира, поддерживая задачи многовидового синтеза и навигации по миру.
- Многоходовое взаимодействие и рассуждение: Обеспечивает многоходовые мультимодальные диалоги и включает рассуждение Chain-of-Thought (CoT), превращая короткие промпты в детальные, логически согласованные выходы.
Техническая архитектура
BAGEL использует архитектуру Mixture-of-Transformer-Experts (MoT), сочетая два независимых визуальных энкодера для захвата пиксельных и семантических особенностей. Общая структура основана на парадигме “предсказание следующей группы токенов”, с предобучением, продолженным обучением и контролируемой дообучением на крупномасштабных чередующихся мультимодальных данных, что приводит к сильным возможностям понимания и генерации.
- Визуальное понимание: Использует ViT энкодер для преобразования изображений в токены, улучшая понимание визуального контента.
- Визуальная генерация: Интегрирует FLUX.1-schnell вариационный автоэнкодер (VAE) для высококачественной генерации изображений.
- Обобщенное причинное внимание: Эффективно взаимодействует с мультимодальными токенами, улучшая согласованность контекста в рассуждении и генерации.
Производительность
BAGEL демонстрирует сильные результаты на публичных бенчмарках:
- Визуальное понимание: Превосходит подобные модели с открытым исходным кодом на MME, MMBench, MM-Vet, MathVista и других бенчмарках.
- Генерация текста в изображения: Достигает общий GenEval счет 0.88, превосходя FLUX-1-dev, SD3-Medium и Janus-Pro-7B.
- Редактирование изображений: Превосходит на GEdit-Bench-EN и IntelligentBench, с более высокой структурной согласованностью и качеством промптов, чем основные модели.
Задача | Метрика/Бенчмарк | Счет BAGEL | Сравнительные модели |
---|---|---|---|
Визуальное понимание | MME | 2388 | Qwen2.5-VL-7B: 2347 |
MMBench | 85.0 | Janus-Pro-7B: 79.2 | |
MM-Vet | 67.2 | Qwen2.5-VL-7B: 67.1 | |
Текст в изображения | GenEval | 0.88 | FLUX-1-dev: 0.82 |
Редактирование изображений | GEdit-Bench-EN SC | 7.36 | Step1X-Edit: 7.09 |
IntelligentBench | 44.0 | Step1X-Edit: 14.9 |
Возникающие способности
По мере увеличения масштаба предобучения, BAGEL демонстрирует поэтапное возникновение способностей: раннее мультимодальное понимание и генерация, средний этап базового редактирования изображений, и позднее сложное интеллектуальное редактирование, гибкое визуальное манипулирование и моделирование мира. Исследования показывают, что сочетание VAE и ViT особенностей значительно улучшает интеллектуальное редактирование, подчеркивая важность визуально-семантического контекста для продвинутого мультимодального рассуждения.
Сценарии применения
- Генерация и редактирование ИИ-изображений
- Мультимодальные диалоги и вопросы-ответы
- Понимание видео и моделирование мира
- Кросс-модальное создание контента и помощь
Открытый исходный код и лицензия
BAGEL выпущен с открытым исходным кодом под лицензией Apache 2.0. Веса модели, код и документация доступны по ссылкам ниже. Модель дообучена и интегрирована из Qwen2.5-7B-Instruct, siglip-so400m-14-384-flash-attn2 и FLUX.1-schnell VAE.
Связанные ссылки
- Официальный веб-сайт BAGEL
- Статья BAGEL (arXiv)
- GitHub репозиторий BAGEL
- Страница модели Hugging Face
- Онлайн демо BAGEL
Источники