Skip to content
Aidez à Construire une Meilleure Base de Connaissances ComfyUI Devenir Parrain
Actualités2025 05 22 Bagel
Aucun article pour le moment. Revenez plus tard !

title: “BAGEL : ByteDance publie en open source un modèle fondation multimodal unifié pour la compréhension et la génération de texte, d’image et de vidéo” description: “ByteDance lance BAGEL, un modèle fondation multimodal open source avec 7 milliards de paramètres actifs, capable de comprendre et de générer du texte, des images et des vidéos, avec d’excellents résultats sur les benchmarks publics.” tag: open-source, bytedance date: 2025-05-22

BAGEL : ByteDance publie en open source un modèle fondation multimodal unifié pour la compréhension et la génération de texte, d’image et de vidéo

BAGEL

BAGEL est un modèle fondation multimodal unifié open source développé par ByteDance, doté de 7 milliards de paramètres actifs (14 milliards au total). Il peut traiter et générer du texte, des images et des vidéos, permettant une compréhension et une création multimodales complètes. BAGEL obtient des résultats de pointe sur les principaux benchmarks publics et prend en charge la génération d’images à partir de texte, l’édition avancée d’images et le modélisation du monde.

BAGEL

Principales caractéristiques

  • Modélisation multimodale unifiée : BAGEL peut gérer simultanément des entrées texte, image et vidéo, et les sorties peuvent être du texte, des images ou une combinaison des deux. Il est adapté aux dialogues multi-tours, à la génération d’images et à la compréhension vidéo.
  • Génération et édition puissantes : Prend en charge la génération d’images et de frames vidéo haute fidélité, l’édition avancée d’images (transfert de style, animation 3D, style peluche) et la manipulation visuelle flexible.
  • Modélisation du monde et navigation : Entraîné sur de grandes quantités de données vidéo et web, BAGEL apprend des connaissances dynamiques du monde réel, prenant en charge la synthèse multi-vues et les tâches de navigation.
  • Interaction et raisonnement multi-tours : Permet des dialogues multimodaux multi-tours et dispose d’un raisonnement de type Chain-of-Thought (CoT), transformant de courtes instructions en sorties détaillées et logiquement cohérentes.

Architecture technique

BAGEL adopte une architecture Mixture-of-Transformer-Experts (MoT), combinant deux encodeurs visuels indépendants pour capturer les caractéristiques au niveau des pixels et sémantique. Le cadre général repose sur la prédiction du “prochain groupe de tokens”, avec pré-entraînement, entraînement continu et ajustement supervisé sur de grandes quantités de données multimodales entrelacées, offrant de solides capacités de compréhension et de génération.

  • Compréhension visuelle : Utilise un encodeur ViT pour convertir les images en tokens, améliorant la compréhension du contenu visuel.
  • Génération visuelle : Intègre l’autoencodeur variationnel FLUX.1-schnell (VAE) pour une génération d’images de haute qualité.
  • Attention causale généralisée : Interagit efficacement avec les tokens multimodaux, améliorant la cohérence contextuelle lors du raisonnement et de la génération.

Performances

BAGEL démontre d’excellents résultats sur les benchmarks publics :

  • Compréhension visuelle : Surpasse les modèles open source similaires sur MME, MMBench, MM-Vet, MathVista et d’autres benchmarks.
  • Génération d’images à partir de texte : Obtient un score global GenEval de 0,88, dépassant FLUX-1-dev, SD3-Medium et Janus-Pro-7B.
  • Édition d’images : Excelle sur GEdit-Bench-EN et IntelligentBench, avec une meilleure cohérence structurelle et qualité des instructions que les modèles principaux.
TâcheIndicateur/BenchmarkScore BAGELModèles comparés
Compréhension visuelleMME2388Qwen2.5-VL-7B : 2347
MMBench85.0Janus-Pro-7B : 79.2
MM-Vet67.2Qwen2.5-VL-7B : 67.1
Génération d’imagesGenEval0.88FLUX-1-dev : 0.82
Édition d’imagesGEdit-Bench-EN SC7.36Step1X-Edit : 7.09
IntelligentBench44.0Step1X-Edit : 14.9

Capacités émergentes

À mesure que le pré-entraînement s’étend, BAGEL montre une émergence progressive de capacités : compréhension et génération multimodales précoces, édition d’images de base à mi-parcours, puis édition intelligente complexe, manipulation visuelle flexible et modélisation du monde. Les études montrent que la combinaison des caractéristiques VAE et ViT améliore significativement l’édition intelligente, soulignant l’importance du contexte visuo-sémantique pour un raisonnement multimodal avancé.

Cas d’application

  • Génération et édition d’images par IA
  • Dialogue et questions multimodales
  • Compréhension vidéo et modélisation du monde
  • Création et assistance de contenu multimodal

Open source et licence

BAGEL est publié sous licence Apache 2.0. Les poids du modèle, le code et la documentation sont disponibles via les liens ci-dessous. Le modèle est affiné et intégré à partir de Qwen2.5-7B-Instruct, siglip-so400m-14-384-flash-attn2 et FLUX.1-schnell VAE.

Liens utiles


Sources