BAGEL：字节跳动开源统一多模态基础模型，支持文本、图像、视频理解与生成

最后更新：2025年5月22日news

字节跳动发布 BAGEL，一个具备 7B 活跃参数的开源多模态基础模型，支持文本、图像、视频等多模态数据的理解与生成，在多项公开基准测试中表现优异。

BAGEL 是由字节跳动团队开源的统一多模态基础模型，具备 7B 活跃参数（总参数量 14B），能够处理文本、图像、视频等多种数据类型，实现多模态的理解与生成。BAGEL 在多项主流多模态基准测试中取得了领先成绩，并支持高质量的文本生成图像、复杂图像编辑、世界建模等能力。

BAGEL

主要特性

多模态统一建模：BAGEL 能够同时处理文本、图像、视频等多种输入，输出也可为文本、图像或两者的组合，适用于多轮对话、图像生成、视频理解等场景。
强大的生成与编辑能力：支持高保真图像和视频帧生成，具备复杂图像编辑（如风格转换、3D 动画、毛绒玩具风格等）和自由形式视觉操作能力。
世界建模与导航：通过大规模视频和网页数据训练，BAGEL 能够学习现实世界的动态知识，支持多视角合成、世界导航等高级任务。
多轮交互与推理：支持多轮多模态对话，具备链式思维（Chain-of-Thought, CoT）推理能力，可将简短提示转化为详细、逻辑一致的输出。

技术架构

BAGEL 采用 Mixture-of-Transformer-Experts (MoT) 架构，结合两个独立的视觉编码器，分别捕获像素级和语义级特征。整体框架基于“下一组 token 预测”范式，模型通过大规模交错多模态数据进行预训练、持续训练和有监督微调，具备强大的理解与生成能力。

视觉理解：采用 ViT 编码器将图像转为 token，提升模型对视觉内容的理解能力。
视觉生成：集成 FLUX.1-schnell 变分自编码器（VAE），实现高质量的图像生成。
广义因果注意力机制：支持多模态 token 的高效交互，提升推理与生成的上下文一致性。

性能表现

BAGEL 在多项公开基准测试中表现优异：

视觉理解：在 MME、MMBench、MM-Vet、MathVista 等基准上均优于同类开源模型。
文本生成图像：在 GenEval 基准上整体得分 0.88，超过 FLUX-1-dev、SD3-Medium、Janus-Pro-7B 等模型。
图像编辑：在 GEdit-Bench-EN 和 IntelligentBench 上表现突出，结构一致性、提示质量等指标均优于主流模型。

| 任务 | 指标/基准 | BAGEL 得分 | 对比模型（部分） | |

|

-|

|

-| | 视觉理解 | MME | 2388 | Qwen2.5-VL-7B: 2347 | | | MMBench | 85.0 | Janus-Pro-7B: 79.2 | | | MM-Vet | 67.2 | Qwen2.5-VL-7B: 67.1 | | 文本生成图像 | GenEval | 0.88 | FLUX-1-dev: 0.82 | | 图像编辑 | GEdit-Bench-EN SC | 7.36 | Step1X-Edit: 7.09 | | | IntelligentBench | 44.0 | Step1X-Edit: 14.9 |

新兴能力

随着预训练规模的扩大，BAGEL 展现出分阶段的能力涌现：早期具备多模态理解与生成能力，中期掌握基础图像编辑，后期则能实现复杂智能编辑、自由视觉操作和世界建模。研究发现，结合 VAE 和 ViT 特征显著提升了模型的智能编辑能力，强调了视觉-语义上下文对高级多模态推理的重要性。

应用场景

AI 图像生成与编辑
多模态对话与问答
视频理解与世界建模
跨模态内容创作与辅助

开源与许可

BAGEL 以 Apache 2.0 协议开源，模型权重、代码及相关文档均可在下方链接获取。模型基于 Qwen2.5-7B-Instruct、siglip-so400m-14-384-flash-attn2 和 FLUX.1-schnell VAE 等开源模型进行微调和集成。

相关链接

内容来源

BAGEL 官方论文

BAGEL 项目主页

BAGEL GitHub 仓库

BAGEL：字节跳动开源统一多模态基础模型，支持文本、图像、视频理解与生成 | ComfyUI Wiki