OmniGen2リリース:自然言語指示による統合画像理解・生成モデル
2025/06/24
OmniGen2リリース:自然言語指示による統合画像理解・生成モデル
VectorSpaceLabチームは、強力なマルチモーダル画像生成モデルであるOmniGen2を正式にリリースしました。前世代のOmniGen v1とは異なり、OmniGen2はテキストと画像モダリティの二重経路デコーディング設計を採用し、独立パラメータと分離された画像トークナイザーを使用することで、画像編集領域において大幅な性能向上を実現しています。
主要機能
OmniGen2は4つの核となる能力を持ち、特に画像編集において優れた性能を発揮します:
自然言語指示による画像編集
OmniGen2の最大の特徴は、自然言語指示による精密な局所画像編集をサポートすることです。ユーザーは希望する修正内容を簡単に説明するだけで、モデルは様々な複雑な編集タスクを正確に実行できます:
- 服装の修正:「ドレスを青に変える」など
- 動作の調整:「手を上げる」「笑顔にする」など
- 背景処理:「背景を教室に変える」など
- オブジェクトの追加:「女性の頭に漁師帽を追加する」など
- オブジェクトの置換:「剣をハンマーに置き換える」など
- オブジェクトの削除:「猫を削除する」など
- スタイル変換:「原画像を基にアニメスタイルのフィギュアを生成する」など
テキストから画像への生成
テキスト記述に基づいて高品質で美しい画像を生成し、様々な創造的シナリオの実現をサポートします。
コンテキスト内生成
OmniGen2は人物、参照オブジェクト、シーンを含む多様な入力を処理し、柔軟に組み合わせて、新しく一貫性のある視覚的出力を生成する能力を持ちます。
視覚理解
Qwen-VL-2.5基盤から継承した強力な視覚理解能力により、画像コンテンツの解釈と分析が可能です。
技術的優位性
OmniGen2はオープンソースモデル中で画像編集の最先端性能を実現し、以下の優位性があります:
- より精密な編集制御:自然言語指示による細粒度画像修正
- 高いリソース効率:CPU オフロードオプションを提供し、限られたVRAMデバイスでの実行をサポート
- 多言語サポート:英語が最良の効果を示しますが、複数言語入力をサポート
- 使いやすさ:シンプルなAPIインターフェースとオンラインデモを提供
システム要件と使用方法
OmniGen2はネイティブでNVIDIA RTX 3090または同等のGPU、約17GBのVRAMが必要です。VRAMが少ないデバイスでは、CPU オフロード機能を有効にしてモデルを実行できます。
モデルは複数の使用方法をサポートします:
- コマンドラインツール
- Gradio ウェブインターフェース
- Jupyter ノートブック
- オンラインデモプラットフォーム
使用推奨事項
最適な結果を得るために、ユーザーには以下をお勧めします:
- 高品質画像の使用:明瞭な画像、できれば512×512ピクセル以上の解像度を提供
- 詳細な指示説明:修正内容と期待される結果を明確に記述
- 英語プロンプトの使用:モデルは英語プロンプトで最良の性能を発揮
- パラメータ設定の調整:タスクタイプに応じてテキストガイダンス強度と画像ガイダンス強度を調整
技術的制限
現在のバージョンにはいくつかの制限があります:
- モデルが指示に完全に従わない場合があり、複数画像を生成して最良の結果を選択することを推奨
- 出力画像サイズを自動決定できず、デフォルトは1024×1024
- 複数画像処理時は、編集対象に合わせて出力サイズを手動設定する必要がある
関連リンク
- プロジェクトホームページ:https://vectorspacelab.github.io/OmniGen2
- GitHubリポジトリ:https://github.com/VectorSpaceLab/OmniGen2
- モデルダウンロード:https://huggingface.co/OmniGen2/OmniGen2
- オンラインデモ:https://huggingface.co/spaces/OmniGen2/OmniGen2
- 技術論文:https://arxiv.org/abs/2506.18871
オープンソースプロジェクトとして、OmniGen2は制御可能でパーソナライズされた生成AIの分野を探索する研究者や開発者に、強力で効率的な基盤ツールを提供します。チームは、コミュニティにより多くのサポートを提供するため、トレーニングコードとデータセットをリリースする予定であることを表明しています。