title: “BAGEL: ByteDance lanza un modelo base multimodal unificado de código abierto para comprensión y generación de texto, imagen y video” description: “ByteDance presenta BAGEL, un modelo base multimodal de código abierto con 7B parámetros activos, capaz de comprender y generar texto, imágenes y videos, logrando resultados destacados en benchmarks públicos.” tag: open-source, bytedance date: 2025-05-22
BAGEL: ByteDance lanza un modelo base multimodal unificado de código abierto para comprensión y generación de texto, imagen y video
BAGEL es un modelo base multimodal unificado de código abierto desarrollado por ByteDance, con 7 mil millones de parámetros activos (14 mil millones en total). Puede procesar y generar texto, imágenes y videos, permitiendo una comprensión y creación multimodal integral. BAGEL logra resultados líderes en los principales benchmarks públicos y soporta generación de imágenes a partir de texto, edición avanzada de imágenes y capacidades de modelado del mundo.
Características principales
- Modelado multimodal unificado: BAGEL puede manejar entradas de texto, imagen y video simultáneamente, y las salidas pueden ser texto, imágenes o una combinación. Es adecuado para diálogos multivuelta, generación de imágenes y comprensión de videos.
- Potente generación y edición: Soporta generación de imágenes y fotogramas de video de alta fidelidad, edición avanzada de imágenes (como transferencia de estilo, animación 3D, estilo de peluche) y manipulación visual flexible.
- Modelado del mundo y navegación: Entrenado con grandes volúmenes de datos de video y web, BAGEL aprende conocimientos dinámicos del mundo real, soportando síntesis multivista y tareas de navegación.
- Interacción y razonamiento multivuelta: Permite diálogos multimodales multivuelta y cuenta con razonamiento tipo Chain-of-Thought (CoT), transformando indicaciones breves en salidas detalladas y lógicamente coherentes.
Arquitectura técnica
BAGEL adopta una arquitectura Mixture-of-Transformer-Experts (MoT), combinando dos codificadores visuales independientes para capturar características a nivel de píxel y semántico. El marco general se basa en la predicción del “siguiente grupo de tokens”, con preentrenamiento, entrenamiento continuo y ajuste supervisado sobre grandes volúmenes de datos multimodales entrelazados, logrando sólidas capacidades de comprensión y generación.
- Comprensión visual: Utiliza un codificador ViT para convertir imágenes en tokens, mejorando la comprensión del contenido visual.
- Generación visual: Integra el autoencoder variacional FLUX.1-schnell (VAE) para una generación de imágenes de alta calidad.
- Atención causal generalizada: Interactúa eficientemente con tokens multimodales, mejorando la coherencia contextual en el razonamiento y la generación.
Rendimiento
BAGEL demuestra resultados destacados en benchmarks públicos:
- Comprensión visual: Supera a modelos de código abierto similares en MME, MMBench, MM-Vet, MathVista y otros benchmarks.
- Generación de imágenes a partir de texto: Obtiene una puntuación GenEval general de 0.88, superando a FLUX-1-dev, SD3-Medium y Janus-Pro-7B.
- Edición de imágenes: Destaca en GEdit-Bench-EN e IntelligentBench, con mayor consistencia estructural y calidad de indicaciones que los modelos principales.
Tarea | Métrica/Benchmark | Puntuación BAGEL | Modelos comparativos |
---|---|---|---|
Comprensión visual | MME | 2388 | Qwen2.5-VL-7B: 2347 |
MMBench | 85.0 | Janus-Pro-7B: 79.2 | |
MM-Vet | 67.2 | Qwen2.5-VL-7B: 67.1 | |
Generación de imágenes | GenEval | 0.88 | FLUX-1-dev: 0.82 |
Edición de imágenes | GEdit-Bench-EN SC | 7.36 | Step1X-Edit: 7.09 |
IntelligentBench | 44.0 | Step1X-Edit: 14.9 |
Capacidades emergentes
A medida que se amplía el preentrenamiento, BAGEL muestra una aparición escalonada de capacidades: comprensión y generación multimodal tempranas, edición básica de imágenes en etapas intermedias y, posteriormente, edición inteligente compleja, manipulación visual flexible y modelado del mundo. Los estudios muestran que combinar características de VAE y ViT mejora significativamente la edición inteligente, destacando la importancia del contexto visual-semántico para el razonamiento multimodal avanzado.
Escenarios de aplicación
- Generación y edición de imágenes con IA
- Diálogo y preguntas multimodales
- Comprensión de video y modelado del mundo
- Creación y asistencia de contenido multimodal
Código abierto y licencia
BAGEL se publica bajo la licencia Apache 2.0. Los pesos del modelo, el código y la documentación están disponibles en los enlaces a continuación. El modelo se ha ajustado e integrado a partir de Qwen2.5-7B-Instruct, siglip-so400m-14-384-flash-attn2 y FLUX.1-schnell VAE.
Enlaces relacionados
- Sitio web oficial de BAGEL
- Artículo de BAGEL (arXiv)
- Repositorio de BAGEL en GitHub
- Página del modelo en Hugging Face
- Demo en línea de BAGEL
Fuentes