ID-Patch：複数人物の個性を活かした集合写真生成の新手法

テキストから画像を生成する主要技術として、拡散モデル（Diffusion Models）は芸術創作やコンテンツ制作の分野で広く活用されています。単一人物の画像生成はかなり成熟していますが、複数人物のシーン生成にはまだ課題が残っています。ユーザーは集合写真の補完や複数キャラクターの広告制作など、複数人物の集合写真やシーンを生成する必要がよくあります。

現在の主な問題はアイデンティティ特徴の漏洩です - 複数人物の画像を生成する際、異なる人物の顔の特徴が混ざり合い、それぞれの個性を維持することが困難です。また、ユーザーはより自然な画面効果を得るために、各人物の位置やポーズを正確に制御したいと考えています。

ID-Patch手法の概要

ByteDanceとミシガン州立大学は共同でID-Patch手法を提案しました。この手法はアイデンティティの保持、位置制御、生成効率の面で大きな進歩を遂げています。ID-Patchの主な革新点は以下の通りです：

IDパッチ（ID Patch）：各人物のための独自のアイデンティティパッチを生成し、条件画像の指定位置に正確に配置することで、空間的なアイデンティティ制御を実現。
ID埋め込み（ID Embedding）：アイデンティティ特徴とテキスト埋め込みを融合させ、顔の類似性とアイデンティティの一貫性を向上。
効率的な推論：ID-PatchはOMGより7倍速く生成でき、計算コストもInstantFamilyより低くなっています。