Skip to content
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻BAGEL:字节跳动开源统一多模态基础模型,支持文本、图像、视频理解与生成

BAGEL:字节跳动开源统一多模态基础模型,支持文本、图像、视频理解与生成

BAGEL

BAGEL 是由字节跳动团队开源的统一多模态基础模型,具备 7B 活跃参数(总参数量 14B),能够处理文本、图像、视频等多种数据类型,实现多模态的理解与生成。BAGEL 在多项主流多模态基准测试中取得了领先成绩,并支持高质量的文本生成图像、复杂图像编辑、世界建模等能力。

BAGEL

主要特性

  • 多模态统一建模:BAGEL 能够同时处理文本、图像、视频等多种输入,输出也可为文本、图像或两者的组合,适用于多轮对话、图像生成、视频理解等场景。
  • 强大的生成与编辑能力:支持高保真图像和视频帧生成,具备复杂图像编辑(如风格转换、3D 动画、毛绒玩具风格等)和自由形式视觉操作能力。
  • 世界建模与导航:通过大规模视频和网页数据训练,BAGEL 能够学习现实世界的动态知识,支持多视角合成、世界导航等高级任务。
  • 多轮交互与推理:支持多轮多模态对话,具备链式思维(Chain-of-Thought, CoT)推理能力,可将简短提示转化为详细、逻辑一致的输出。

技术架构

BAGEL 采用 Mixture-of-Transformer-Experts (MoT) 架构,结合两个独立的视觉编码器,分别捕获像素级和语义级特征。整体框架基于“下一组 token 预测”范式,模型通过大规模交错多模态数据进行预训练、持续训练和有监督微调,具备强大的理解与生成能力。

  • 视觉理解:采用 ViT 编码器将图像转为 token,提升模型对视觉内容的理解能力。
  • 视觉生成:集成 FLUX.1-schnell 变分自编码器(VAE),实现高质量的图像生成。
  • 广义因果注意力机制:支持多模态 token 的高效交互,提升推理与生成的上下文一致性。

性能表现

BAGEL 在多项公开基准测试中表现优异:

  • 视觉理解:在 MME、MMBench、MM-Vet、MathVista 等基准上均优于同类开源模型。
  • 文本生成图像:在 GenEval 基准上整体得分 0.88,超过 FLUX-1-dev、SD3-Medium、Janus-Pro-7B 等模型。
  • 图像编辑:在 GEdit-Bench-EN 和 IntelligentBench 上表现突出,结构一致性、提示质量等指标均优于主流模型。
任务指标/基准BAGEL 得分对比模型(部分)
视觉理解MME2388Qwen2.5-VL-7B: 2347
MMBench85.0Janus-Pro-7B: 79.2
MM-Vet67.2Qwen2.5-VL-7B: 67.1
文本生成图像GenEval0.88FLUX-1-dev: 0.82
图像编辑GEdit-Bench-EN SC7.36Step1X-Edit: 7.09
IntelligentBench44.0Step1X-Edit: 14.9

新兴能力

随着预训练规模的扩大,BAGEL 展现出分阶段的能力涌现:早期具备多模态理解与生成能力,中期掌握基础图像编辑,后期则能实现复杂智能编辑、自由视觉操作和世界建模。研究发现,结合 VAE 和 ViT 特征显著提升了模型的智能编辑能力,强调了视觉-语义上下文对高级多模态推理的重要性。

应用场景

  • AI 图像生成与编辑
  • 多模态对话与问答
  • 视频理解与世界建模
  • 跨模态内容创作与辅助

开源与许可

BAGEL 以 Apache 2.0 协议开源,模型权重、代码及相关文档均可在下方链接获取。模型基于 Qwen2.5-7B-Instruct、siglip-so400m-14-384-flash-attn2 和 FLUX.1-schnell VAE 等开源模型进行微调和集成。

相关链接


内容来源