Insert Anything: シームレスな画像挿入のためのオープンソースフレームワーク
Insert Anythingは、浙江大学、ハーバード大学、南洋理工大学の研究チーム(Wensong Song、Hong Jiang、Zongxing Yang、Ruijie Quan、Yi Yang)によって共同開発された新しいオープンソースの画像編集フレームワークです。このフレームワークは、ユーザー指定の制御ガイダンスの下で、参照画像からのオブジェクトをターゲットシーンにシームレスに統合することができます。
この統合画像挿入フレームワークは、芸術的創作、実際の顔の置き換え、映画シーンの合成、仮想衣服の試着、アクセサリーのカスタマイズ、デジタル小道具の置き換えなど、複数の実用的なアプリケーションシナリオをサポートし、さまざまな画像編集タスクにおけるその多様性と有効性を十分に示しています。
主な特徴
- 統合挿入フレームワーク:異なるタスクに対して別々のモデルをトレーニングする必要がなく、1つのモデルで複数の挿入シナリオをサポート
- 複数の制御方法:マスクベースとテキストベースの編集ガイダンスをサポート
- アイデンティティ特徴の保存:アイデンティティ特徴と細部を正確に捉えながら、スタイル、色、テクスチャの多様なローカル調整を可能に
- コンテキスト編集メカニズム:参照画像をコンテキスト情報として扱い、2つのプロンプト戦略を使用して挿入された要素をターゲットシーンと調和的に融合
- 低VRAM版のサポート:Nunchakuをベースにした10GB VRAM版を提供し、一般ユーザーに便利
アプリケーションショーケース
ミーム作成
ミーム作成はInsert Anythingの重要なアプリケーションシナリオです。以下はいくつかの比較画像です:
商業広告デザイン
商業広告デザインはInsert Anythingのもう一つの重要なアプリケーションシナリオです。以下はいくつかの比較画像です:
ポップカルチャー創作
ポップカルチャー創作はInsert Anythingのクリエイティブなコンテンツ生成の可能性を示しています:
技術的なハイライト
Insert AnythingはDiffusion Transformer(DiT)のマルチモーダル注意メカニズムを活用し、マスクベースとテキストベースの両方の編集をサポートしています。異なるタイプのプロンプトに応じて、この統合フレームワークは複数の入力画像(参照画像、ソース画像、マスクの組み合わせ)を凍結されたVAEエンコーダーを通して処理し、高周波の詳細を保存し、画像とテキストエンコーダーからセマンティックガイダンスを抽出します。これらの埋め込みは組み合わされ、コンテキスト学習のために学習可能なDiTトランスフォーマーブロックに入力され、マスクまたはテキストプロンプトに基づいた正確で柔軟な画像挿入を可能にします。
AnyInsertionデータセット
この統合フレームワークをトレーニングするために、研究チームはAnyInsertionデータセットを作成しました。このデータセットには約12万のプロンプト-画像ペアが含まれており、人物、オブジェクト、衣服の挿入など様々な挿入タスクをカバーしています。データセットはマスクベースとテキストベースのカテゴリに分けられ、それぞれがさらにアクセサリー、オブジェクト、人物のサブカテゴリに細分化されています。
データセット内の画像ペアはインターネットリソース、人物ビデオ、マルチビュー画像から取得されています。データセットは様々な挿入シナリオをカバーしています:
- 家具とインテリアデコレーション
- 日用品
- 衣服とアクセサリー
- 輸送車両
- 人物
オープンソースと使用方法
Insert AnythingプロジェクトはGitHubでオープンソース化されており、誰でも自由にダウンロードして使用することができます:
- GitHubリポジトリ: song-wensong/insert-anything
- データセット: WensongSong/AnyInsertion
プロジェクトは複数の使用方法を提供しています:
- コマンドライン推論スクリプト
- Gradioインターフェース
- ComfyUI統合ノード
ハードウェア要件
Insert Anythingは2つのバージョンを提供しています:
- 標準バージョン:26GBまたは40GB VRAMが必要
- 軽量バージョン:Nunchakuをベースにした最適化バージョンで、10GB VRAMのみ必要
今後の計画
公式GitHubリポジトリの情報によると、チームは以下を計画しています:
- トレーニングコードのリリース
- AnyInsertionテキストプロンプトデータセットのHuggingFaceでのリリース
関連リンク
このオープンソースフレームワークのリリースにより、クリエイティブワーカー、デザイナー、コンテンツクリエイターに、より柔軟で正確な画像編集効果を実現するための強力なツールが提供されます。