BAGEL:字节跳动开源统一多模态基础模型,支持文本、图像、视频理解与生成
2025/05/22
BAGEL:字节跳动开源统一多模态基础模型,支持文本、图像、视频理解与生成
BAGEL 是由字节跳动团队开源的统一多模态基础模型,具备 7B 活跃参数(总参数量 14B),能够处理文本、图像、视频等多种数据类型,实现多模态的理解与生成。BAGEL 在多项主流多模态基准测试中取得了领先成绩,并支持高质量的文本生成图像、复杂图像编辑、世界建模等能力。
主要特性
- 多模态统一建模:BAGEL 能够同时处理文本、图像、视频等多种输入,输出也可为文本、图像或两者的组合,适用于多轮对话、图像生成、视频理解等场景。
- 强大的生成与编辑能力:支持高保真图像和视频帧生成,具备复杂图像编辑(如风格转换、3D 动画、毛绒玩具风格等)和自由形式视觉操作能力。
- 世界建模与导航:通过大规模视频和网页数据训练,BAGEL 能够学习现实世界的动态知识,支持多视角合成、世界导航等高级任务。
- 多轮交互与推理:支持多轮多模态对话,具备链式思维(Chain-of-Thought, CoT)推理能力,可将简短提示转化为详细、逻辑一致的输出。
技术架构
BAGEL 采用 Mixture-of-Transformer-Experts (MoT) 架构,结合两个独立的视觉编码器,分别捕获像素级和语义级特征。整体框架基于“下一组 token 预测”范式,模型通过大规模交错多模态数据进行预训练、持续训练和有监督微调,具备强大的理解与生成能力。
- 视觉理解:采用 ViT 编码器将图像转为 token,提升模型对视觉内容的理解能力。
- 视觉生成:集成 FLUX.1-schnell 变分自编码器(VAE),实现高质量的图像生成。
- 广义因果注意力机制:支持多模态 token 的高效交互,提升推理与生成的上下文一致性。
性能表现
BAGEL 在多项公开基准测试中表现优异:
- 视觉理解:在 MME、MMBench、MM-Vet、MathVista 等基准上均优于同类开源模型。
- 文本生成图像:在 GenEval 基准上整体得分 0.88,超过 FLUX-1-dev、SD3-Medium、Janus-Pro-7B 等模型。
- 图像编辑:在 GEdit-Bench-EN 和 IntelligentBench 上表现突出,结构一致性、提示质量等指标均优于主流模型。
任务 | 指标/基准 | BAGEL 得分 | 对比模型(部分) |
---|---|---|---|
视觉理解 | MME | 2388 | Qwen2.5-VL-7B: 2347 |
MMBench | 85.0 | Janus-Pro-7B: 79.2 | |
MM-Vet | 67.2 | Qwen2.5-VL-7B: 67.1 | |
文本生成图像 | GenEval | 0.88 | FLUX-1-dev: 0.82 |
图像编辑 | GEdit-Bench-EN SC | 7.36 | Step1X-Edit: 7.09 |
IntelligentBench | 44.0 | Step1X-Edit: 14.9 |
新兴能力
随着预训练规模的扩大,BAGEL 展现出分阶段的能力涌现:早期具备多模态理解与生成能力,中期掌握基础图像编辑,后期则能实现复杂智能编辑、自由视觉操作和世界建模。研究发现,结合 VAE 和 ViT 特征显著提升了模型的智能编辑能力,强调了视觉-语义上下文对高级多模态推理的重要性。
应用场景
- AI 图像生成与编辑
- 多模态对话与问答
- 视频理解与世界建模
- 跨模态内容创作与辅助
开源与许可
BAGEL 以 Apache 2.0 协议开源,模型权重、代码及相关文档均可在下方链接获取。模型基于 Qwen2.5-7B-Instruct、siglip-so400m-14-384-flash-attn2 和 FLUX.1-schnell VAE 等开源模型进行微调和集成。
相关链接
内容来源