Skip to content
Ayuda a Construir una Mejor Base de Conocimientos de ComfyUI Conviértete en Patrocinador
Noticias2025 05 22 Bagel

title: “BAGEL: ByteDance lanza un modelo base multimodal unificado de código abierto para comprensión y generación de texto, imagen y video” description: “ByteDance presenta BAGEL, un modelo base multimodal de código abierto con 7B parámetros activos, capaz de comprender y generar texto, imágenes y videos, logrando resultados destacados en benchmarks públicos.” tag: open-source, bytedance date: 2025-05-22

BAGEL: ByteDance lanza un modelo base multimodal unificado de código abierto para comprensión y generación de texto, imagen y video

BAGEL

BAGEL es un modelo base multimodal unificado de código abierto desarrollado por ByteDance, con 7 mil millones de parámetros activos (14 mil millones en total). Puede procesar y generar texto, imágenes y videos, permitiendo una comprensión y creación multimodal integral. BAGEL logra resultados líderes en los principales benchmarks públicos y soporta generación de imágenes a partir de texto, edición avanzada de imágenes y capacidades de modelado del mundo.

BAGEL

Características principales

  • Modelado multimodal unificado: BAGEL puede manejar entradas de texto, imagen y video simultáneamente, y las salidas pueden ser texto, imágenes o una combinación. Es adecuado para diálogos multivuelta, generación de imágenes y comprensión de videos.
  • Potente generación y edición: Soporta generación de imágenes y fotogramas de video de alta fidelidad, edición avanzada de imágenes (como transferencia de estilo, animación 3D, estilo de peluche) y manipulación visual flexible.
  • Modelado del mundo y navegación: Entrenado con grandes volúmenes de datos de video y web, BAGEL aprende conocimientos dinámicos del mundo real, soportando síntesis multivista y tareas de navegación.
  • Interacción y razonamiento multivuelta: Permite diálogos multimodales multivuelta y cuenta con razonamiento tipo Chain-of-Thought (CoT), transformando indicaciones breves en salidas detalladas y lógicamente coherentes.

Arquitectura técnica

BAGEL adopta una arquitectura Mixture-of-Transformer-Experts (MoT), combinando dos codificadores visuales independientes para capturar características a nivel de píxel y semántico. El marco general se basa en la predicción del “siguiente grupo de tokens”, con preentrenamiento, entrenamiento continuo y ajuste supervisado sobre grandes volúmenes de datos multimodales entrelazados, logrando sólidas capacidades de comprensión y generación.

  • Comprensión visual: Utiliza un codificador ViT para convertir imágenes en tokens, mejorando la comprensión del contenido visual.
  • Generación visual: Integra el autoencoder variacional FLUX.1-schnell (VAE) para una generación de imágenes de alta calidad.
  • Atención causal generalizada: Interactúa eficientemente con tokens multimodales, mejorando la coherencia contextual en el razonamiento y la generación.

Rendimiento

BAGEL demuestra resultados destacados en benchmarks públicos:

  • Comprensión visual: Supera a modelos de código abierto similares en MME, MMBench, MM-Vet, MathVista y otros benchmarks.
  • Generación de imágenes a partir de texto: Obtiene una puntuación GenEval general de 0.88, superando a FLUX-1-dev, SD3-Medium y Janus-Pro-7B.
  • Edición de imágenes: Destaca en GEdit-Bench-EN e IntelligentBench, con mayor consistencia estructural y calidad de indicaciones que los modelos principales.
TareaMétrica/BenchmarkPuntuación BAGELModelos comparativos
Comprensión visualMME2388Qwen2.5-VL-7B: 2347
MMBench85.0Janus-Pro-7B: 79.2
MM-Vet67.2Qwen2.5-VL-7B: 67.1
Generación de imágenesGenEval0.88FLUX-1-dev: 0.82
Edición de imágenesGEdit-Bench-EN SC7.36Step1X-Edit: 7.09
IntelligentBench44.0Step1X-Edit: 14.9

Capacidades emergentes

A medida que se amplía el preentrenamiento, BAGEL muestra una aparición escalonada de capacidades: comprensión y generación multimodal tempranas, edición básica de imágenes en etapas intermedias y, posteriormente, edición inteligente compleja, manipulación visual flexible y modelado del mundo. Los estudios muestran que combinar características de VAE y ViT mejora significativamente la edición inteligente, destacando la importancia del contexto visual-semántico para el razonamiento multimodal avanzado.

Escenarios de aplicación

  • Generación y edición de imágenes con IA
  • Diálogo y preguntas multimodales
  • Comprensión de video y modelado del mundo
  • Creación y asistencia de contenido multimodal

Código abierto y licencia

BAGEL se publica bajo la licencia Apache 2.0. Los pesos del modelo, el código y la documentación están disponibles en los enlaces a continuación. El modelo se ha ajustado e integrado a partir de Qwen2.5-7B-Instruct, siglip-so400m-14-384-flash-attn2 y FLUX.1-schnell VAE.

Enlaces relacionados


Fuentes