Boogu-Image-0.1-Edit: Apache 2.0 ライセンスのオープンソース統合画像編集
Boogu-Image-0.1-Edit は、Boogu-Image ファミリーの Apache 2.0 ライセンス画像編集モデルで、統一されたマルチモーダル理解と生成アーキテクチャによる指示ベースの画像編集を提供します。
概要
Boogu-Image-0.1 は、Boogu プロジェクト が開発した競争力のあるオープンソース統合画像生成・編集モデルファミリーです。このファミリーには、Base(テキストから画像へ)、Turbo(4 ステップ蒸留高速生成)、Edit(画像から画像への編集)の 3 つの主要バリアントが含まれ、すべて Apache 2.0 ライセンス のもとで公開されています。
Edit バリアントは特に指示ベースの画像編集に特化しています。ユーザーは参照画像と共に、希望する編集内容を自然言語の指示で提供し、モデルは元の画像の構造とコンテンツを保持しながら編集結果を生成します。
Boogu-Image-0.1 は、Boogu Arena(LM Arena スタイルの嗜好評価)で競争力のある結果を達成し、1,000 以上の多様なテストプロンプトにおいて、クローズドソースシステムや主要なオープンソースの代替品と比較して好意的に評価されました。
主な特長
| 特長 | 説明 | |
|
-|
| タスク | 指示ベースの画像から画像への編集 |
| アーキテクチャ | 統一 MLLM 理解 + 拡散生成 |
| ライセンス | Apache 2.0(完全オープンソース) |
| ライブラリ | Diffusers(カスタム BooguImagePipeline) |
| 言語 | 英語と中国語に最適化 |
| ComfyUI | ComfyUI でネイティブサポート |
モデルアーキテクチャ
Boogu-Image-0.1 は、以下を統合した 統一マルチモーダル理解と生成アーキテクチャ を採用しています:
- ユーザーの指示と画像コンテンツを理解するための マルチモーダル大規模言語モデル(MLLM)
- 高品質な画像生成のための 拡散トランスフォーマー
- 潜在空間のエンコード/デコードのための VAE
この統一アプローチにより、モデルは高画質を維持しながら正確な指示追従を実現します。特に Edit バリアントは、MLLM による空間関係、オブジェクト属性、編集指示の理解を活用して、一貫性のある修正を生成します。
機能
Boogu-Image-0.1-Edit は、さまざまな画像編集タスクに優れています:
- オブジェクトの置き換え: テキストの説明に基づいて画像内のオブジェクトを交換
- 背景の変更: 前景の被写体を保持しながら背景を変更
- スタイル転送: 既存の画像にアーティスティックなスタイルを適用
- 局所編集: テキスト指示に従って特定の領域を変更
- バイリンガルサポート: 英語と中国語の編集指示を処理
ComfyUI との統合
Boogu-Image-0.1-Edit は、ComfyUI でネイティブサポート されています。公式の Boogu Image Edit ワークフロー を使ってすぐに始められます。
ComfyUI を最新バージョンに更新してください(更新ガイド)。必要なモデルウェイトは Hugging Face の Comfy-Org/Boogu-Image リポジトリから入手できます。
オンラインデモ
Boogu-Image-0.1-Edit はブラウザで直接試すことができます:
- Edit デモ: demo-edit.boogu.org
- Base デモ: demo-base.boogu.org
- Turbo デモ: demo-turbo.boogu.org
入手方法
- Hugging Face (Edit): Boogu/Boogu-Image-0.1-Edit
- Hugging Face (Base): Boogu/Boogu-Image-0.1-Base
- GitHub: boogu-project/Boogu-Image
- プロジェクトページ: boogu.org
- ギャラリー: boogu-gallery.netlify.app
まとめ
Boogu-Image-0.1-Edit は、寛容な Apache 2.0 ライセンスのもとで、競争力のある指示ベースの画像編集をオープンソースコミュニティにもたらします。統一 MLLM アーキテクチャ、強力なバイリンガルサポート、すぐに使える ComfyUI 統合により、オープンソース画像編集ツールにとって重要な前進を示しています。