title: “BAGEL: ByteDance lanza un modelo base multimodal unificado de código abierto para comprensión y generación de texto, imagen y video” description: “ByteDance presenta BAGEL, un modelo base multimodal de código abierto con 7B parámetros activos, capaz de comprender y generar texto, imágenes y videos, logrando resultados destacados en benchmarks públicos.” tag: open-source, bytedance date: 2025-05-22

BAGEL: ByteDance lanza un modelo base multimodal unificado de código abierto para comprensión y generación de texto, imagen y video

BAGEL es un modelo base multimodal unificado de código abierto desarrollado por ByteDance, con 7 mil millones de parámetros activos (14 mil millones en total). Puede procesar y generar texto, imágenes y videos, permitiendo una comprensión y creación multimodal integral. BAGEL logra resultados líderes en los principales benchmarks públicos y soporta generación de imágenes a partir de texto, edición avanzada de imágenes y capacidades de modelado del mundo.

BAGEL

Características principales

Modelado multimodal unificado: BAGEL puede manejar entradas de texto, imagen y video simultáneamente, y las salidas pueden ser texto, imágenes o una combinación. Es adecuado para diálogos multivuelta, generación de imágenes y comprensión de videos.
Potente generación y edición: Soporta generación de imágenes y fotogramas de video de alta fidelidad, edición avanzada de imágenes (como transferencia de estilo, animación 3D, estilo de peluche) y manipulación visual flexible.
Modelado del mundo y navegación: Entrenado con grandes volúmenes de datos de video y web, BAGEL aprende conocimientos dinámicos del mundo real, soportando síntesis multivista y tareas de navegación.
Interacción y razonamiento multivuelta: Permite diálogos multimodales multivuelta y cuenta con razonamiento tipo Chain-of-Thought (CoT), transformando indicaciones breves en salidas detalladas y lógicamente coherentes.

Arquitectura técnica

BAGEL adopta una arquitectura Mixture-of-Transformer-Experts (MoT), combinando dos codificadores visuales independientes para capturar características a nivel de píxel y semántico. El marco general se basa en la predicción del “siguiente grupo de tokens”, con preentrenamiento, entrenamiento continuo y ajuste supervisado sobre grandes volúmenes de datos multimodales entrelazados, logrando sólidas capacidades de comprensión y generación.

Comprensión visual: Utiliza un codificador ViT para convertir imágenes en tokens, mejorando la comprensión del contenido visual.
Generación visual: Integra el autoencoder variacional FLUX.1-schnell (VAE) para una generación de imágenes de alta calidad.
Atención causal generalizada: Interactúa eficientemente con tokens multimodales, mejorando la coherencia contextual en el razonamiento y la generación.

Rendimiento

BAGEL demuestra resultados destacados en benchmarks públicos:

Comprensión visual: Supera a modelos de código abierto similares en MME, MMBench, MM-Vet, MathVista y otros benchmarks.
Generación de imágenes a partir de texto: Obtiene una puntuación GenEval general de 0.88, superando a FLUX-1-dev, SD3-Medium y Janus-Pro-7B.
Edición de imágenes: Destaca en GEdit-Bench-EN e IntelligentBench, con mayor consistencia estructural y calidad de indicaciones que los modelos principales.

Tarea	Métrica/Benchmark	Puntuación BAGEL	Modelos comparativos
Comprensión visual	MME	2388	Qwen2.5-VL-7B: 2347
	MMBench	85.0	Janus-Pro-7B: 79.2
	MM-Vet	67.2	Qwen2.5-VL-7B: 67.1
Generación de imágenes	GenEval	0.88	FLUX-1-dev: 0.82
Edición de imágenes	GEdit-Bench-EN SC	7.36	Step1X-Edit: 7.09
	IntelligentBench	44.0	Step1X-Edit: 14.9

Capacidades emergentes

A medida que se amplía el preentrenamiento, BAGEL muestra una aparición escalonada de capacidades: comprensión y generación multimodal tempranas, edición básica de imágenes en etapas intermedias y, posteriormente, edición inteligente compleja, manipulación visual flexible y modelado del mundo. Los estudios muestran que combinar características de VAE y ViT mejora significativamente la edición inteligente, destacando la importancia del contexto visual-semántico para el razonamiento multimodal avanzado.

Escenarios de aplicación

Generación y edición de imágenes con IA
Diálogo y preguntas multimodales
Comprensión de video y modelado del mundo
Creación y asistencia de contenido multimodal

Código abierto y licencia

BAGEL se publica bajo la licencia Apache 2.0. Los pesos del modelo, el código y la documentación están disponibles en los enlaces a continuación. El modelo se ha ajustado e integrado a partir de Qwen2.5-7B-Instruct, siglip-so400m-14-384-flash-attn2 y FLUX.1-schnell VAE.

Enlaces relacionados

Fuentes

Artículo oficial de BAGEL

Página del proyecto BAGEL

Repositorio de BAGEL en GitHub

RunningHub

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD

优云智算

ComfyUI Lanza Oficialmente la Función Subgraph