更新通知: ComfyUIフロントエンドに影響を与えるカスタムノード
2025/05/13
title: “BAGEL:ByteDanceがテキスト・画像・動画の理解と生成を統合したマルチモーダル基盤モデルをオープンソース化” description: “ByteDanceは、7Bアクティブパラメータを持つオープンソースのマルチモーダル基盤モデルBAGELを公開。テキスト・画像・動画の理解と生成をサポートし、各種ベンチマークで優れた成績を収めています。” tag: open-source, bytedance date: 2025-05-22
BAGEL:ByteDanceがテキスト・画像・動画の理解と生成を統合したマルチモーダル基盤モデルをオープンソース化
BAGELは、ByteDanceがオープンソースで公開した統合型マルチモーダル基盤モデルで、7Bアクティブパラメータ(総パラメータ数14B)を搭載しています。テキスト・画像・動画など多様なデータを処理・生成でき、マルチモーダルな理解と創造を実現します。BAGELは主要な公開ベンチマークでトップクラスの成績を収めており、高品質なテキストから画像生成、複雑な画像編集、世界モデリングなどの機能を備えています。
主な特徴
- マルチモーダル統合モデリング:BAGELはテキスト・画像・動画の入力を同時に処理でき、出力もテキスト・画像またはその組み合わせが可能です。マルチターン対話、画像生成、動画理解などのシーンに適しています。
- 強力な生成・編集能力:高精細な画像・動画フレーム生成、スタイル変換や3Dアニメーション、ぬいぐるみ風などの高度な画像編集、柔軟なビジュアル操作に対応。
- 世界モデリングとナビゲーション:大規模な動画・ウェブデータで学習し、現実世界の動的知識を獲得。マルチビュー合成や世界ナビゲーションなどの高度なタスクもサポートします。
- マルチターン対話と推論:マルチモーダルなマルチターン対話に対応し、Chain-of-Thought(CoT)推論機能で短いプロンプトを詳細かつ論理的な出力に変換します。
技術アーキテクチャ
BAGELはMixture-of-Transformer-Experts(MoT)アーキテクチャを採用し、2つの独立したビジュアルエンコーダでピクセルレベルとセマンティックレベルの特徴を抽出します。全体フレームワークは「次のトークングループ予測」パラダイムに基づき、大規模な交互マルチモーダルデータによる事前学習・継続学習・教師ありファインチューニングを通じて高い理解・生成能力を実現しています。
- ビジュアル理解:ViTエンコーダで画像をトークン化し、視覚内容の理解力を向上。
- ビジュアル生成:FLUX.1-schnell変分オートエンコーダ(VAE)を統合し、高品質な画像生成を実現。
- 一般化因果アテンション:マルチモーダルトークン間の効率的な相互作用で、推論や生成時の文脈一貫性を向上。
パフォーマンス
BAGELは公開ベンチマークで優れた成績を示しています:
- ビジュアル理解:MME、MMBench、MM-Vet、MathVistaなどで同種のオープンソースモデルを上回る。
- テキストから画像生成:GenEval全体スコア0.88を達成し、FLUX-1-dev、SD3-Medium、Janus-Pro-7Bを上回る。
- 画像編集:GEdit-Bench-ENやIntelligentBenchで高い構造一貫性・プロンプト品質を示し、主流モデルを凌駕。
タスク | 指標/ベンチマーク | BAGELスコア | 比較モデル(抜粋) |
---|---|---|---|
ビジュアル理解 | MME | 2388 | Qwen2.5-VL-7B: 2347 |
MMBench | 85.0 | Janus-Pro-7B: 79.2 | |
MM-Vet | 67.2 | Qwen2.5-VL-7B: 67.1 | |
テキストから画像生成 | GenEval | 0.88 | FLUX-1-dev: 0.82 |
画像編集 | GEdit-Bench-EN SC | 7.36 | Step1X-Edit: 7.09 |
IntelligentBench | 44.0 | Step1X-Edit: 14.9 |
新たな能力の出現
事前学習の規模拡大に伴い、BAGELは段階的な能力の出現を示します。初期はマルチモーダル理解・生成、中期は基本的な画像編集、後期には複雑な知的編集や柔軟なビジュアル操作、世界モデリングが可能となります。VAEとViT特徴の組み合わせが知的編集能力を大きく向上させることが研究で示されており、高度なマルチモーダル推論には視覚・意味文脈が重要です。
活用シーン
- AIによる画像生成・編集
- マルチモーダル対話・Q&A
- 動画理解・世界モデリング
- クロスモーダルなコンテンツ制作・支援
オープンソースとライセンス
BAGELはApache 2.0ライセンスで公開されています。モデルの重み・コード・ドキュメントは下記リンクから入手可能です。Qwen2.5-7B-Instruct、siglip-so400m-14-384-flash-attn2、FLUX.1-schnell VAEをベースにファインチューニング・統合されています。
関連リンク
出典