Skip to content
より良い ComfyUI ナレッジベースの構築を支援する サポーターになる
ニュースInsert Anything: シームレスな画像挿入のためのオープンソースフレームワーク

Insert Anything: シームレスな画像挿入のためのオープンソースフレームワーク

Insert Anything概要

Insert Anythingは、浙江大学、ハーバード大学、南洋理工大学の研究チーム(Wensong Song、Hong Jiang、Zongxing Yang、Ruijie Quan、Yi Yang)によって共同開発された新しいオープンソースの画像編集フレームワークです。このフレームワークは、ユーザー指定の制御ガイダンスの下で、参照画像からのオブジェクトをターゲットシーンにシームレスに統合することができます。

この統合画像挿入フレームワークは、芸術的創作、実際の顔の置き換え、映画シーンの合成、仮想衣服の試着、アクセサリーのカスタマイズ、デジタル小道具の置き換えなど、複数の実用的なアプリケーションシナリオをサポートし、さまざまな画像編集タスクにおけるその多様性と有効性を十分に示しています。

主な特徴

  • 統合挿入フレームワーク:異なるタスクに対して別々のモデルをトレーニングする必要がなく、1つのモデルで複数の挿入シナリオをサポート
  • 複数の制御方法:マスクベースとテキストベースの編集ガイダンスをサポート
  • アイデンティティ特徴の保存:アイデンティティ特徴と細部を正確に捉えながら、スタイル、色、テクスチャの多様なローカル調整を可能に
  • コンテキスト編集メカニズム:参照画像をコンテキスト情報として扱い、2つのプロンプト戦略を使用して挿入された要素をターゲットシーンと調和的に融合
  • 低VRAM版のサポート:Nunchakuをベースにした10GB VRAM版を提供し、一般ユーザーに便利

アプリケーションショーケース

ミーム作成

ミーム作成はInsert Anythingの重要なアプリケーションシナリオです。以下はいくつかの比較画像です:

ミーム例1 ミーム効果1

ミーム例2 ミーム効果2

ミーム例3 ミーム効果3

商業広告デザイン

商業広告デザインはInsert Anythingのもう一つの重要なアプリケーションシナリオです。以下はいくつかの比較画像です:

広告例1 広告効果1

広告例2 広告効果2

広告例3 広告効果3

ポップカルチャー創作

ポップカルチャー創作はInsert Anythingのクリエイティブなコンテンツ生成の可能性を示しています:

ポップカルチャー例1 ポップカルチャー効果1

ポップカルチャー例2 ポップカルチャー効果2

ポップカルチャー例3 ポップカルチャー効果3

ポップカルチャー例4 ポップカルチャー効果4

技術的なハイライト

Insert Anything手法概要

Insert AnythingはDiffusion Transformer(DiT)のマルチモーダル注意メカニズムを活用し、マスクベースとテキストベースの両方の編集をサポートしています。異なるタイプのプロンプトに応じて、この統合フレームワークは複数の入力画像(参照画像、ソース画像、マスクの組み合わせ)を凍結されたVAEエンコーダーを通して処理し、高周波の詳細を保存し、画像とテキストエンコーダーからセマンティックガイダンスを抽出します。これらの埋め込みは組み合わされ、コンテキスト学習のために学習可能なDiTトランスフォーマーブロックに入力され、マスクまたはテキストプロンプトに基づいた正確で柔軟な画像挿入を可能にします。

AnyInsertionデータセット

AnyInsertionデータセット例

AnyInsertionデータセット情報

この統合フレームワークをトレーニングするために、研究チームはAnyInsertionデータセットを作成しました。このデータセットには約12万のプロンプト-画像ペアが含まれており、人物、オブジェクト、衣服の挿入など様々な挿入タスクをカバーしています。データセットはマスクベースとテキストベースのカテゴリに分けられ、それぞれがさらにアクセサリー、オブジェクト、人物のサブカテゴリに細分化されています。

データセット内の画像ペアはインターネットリソース、人物ビデオ、マルチビュー画像から取得されています。データセットは様々な挿入シナリオをカバーしています:

  • 家具とインテリアデコレーション
  • 日用品
  • 衣服とアクセサリー
  • 輸送車両
  • 人物

オープンソースと使用方法

Insert AnythingプロジェクトはGitHubでオープンソース化されており、誰でも自由にダウンロードして使用することができます:

プロジェクトは複数の使用方法を提供しています:

  • コマンドライン推論スクリプト
  • Gradioインターフェース
  • ComfyUI統合ノード

ハードウェア要件

Insert Anythingは2つのバージョンを提供しています:

  • 標準バージョン:26GBまたは40GB VRAMが必要
  • 軽量バージョン:Nunchakuをベースにした最適化バージョンで、10GB VRAMのみ必要

今後の計画

公式GitHubリポジトリの情報によると、チームは以下を計画しています:

  • トレーニングコードのリリース
  • AnyInsertionテキストプロンプトデータセットのHuggingFaceでのリリース

関連リンク

このオープンソースフレームワークのリリースにより、クリエイティブワーカー、デザイナー、コンテンツクリエイターに、より柔軟で正確な画像編集効果を実現するための強力なツールが提供されます。