Skip to content
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻ID-Patch:多身份个性化合影生成新方法

ID-Patch:多身份个性化合影生成新方法

扩散模型(Diffusion Models)作为文本生成图像的主流技术,在艺术创作和内容生产领域应用广泛。虽然单人图像生成已经相当成熟,但多人场景生成仍面临挑战。用户经常需要生成多人合影或多角色场景,比如补全聚会合影或制作多角色广告。

目前的主要问题是身份特征泄露 - 生成多人图像时,不同人物的面部特征容易混淆,难以保持各自的独特性。同时,用户还希望精确控制每个人的位置和动作,以获得更自然的画面效果。

ID-Patch方法简介

字节跳动与密歇根州立大学联合提出了ID-Patch方法。该方法在身份保持、位置控制和生成效率等方面取得了显著进步。ID-Patch的核心创新在于:

  • ID补丁(ID Patch):为每个人物生成独特的身份补丁,精确地放置在条件图像的指定位置,实现空间上的身份控制。
  • ID嵌入(ID Embedding):将身份特征与文本嵌入融合,提升面部相似度和身份一致性。
  • 高效推理:ID-Patch的生成速度比OMG快7倍,计算开销也低于InstantFamily。

效果展示

下图展示了ID-Patch与主流方法的对比效果:

ID-Patch与主流方法对比

从左到右依次为:条件输入、OMG(InstantID)、InstantFamily 和 ID-Patch。可以看到,ID-Patch能够更好地保留每个人的详细身份信息,避免了发型丢失、手部伪影和身份混淆等问题。

更多生成示例

  • 使用ID-Patch生成任意姿势的图像:

使用 ID-Patch 生成任意姿势图像

  • 即插即用:Canny Edge 边缘条件生成

即插即用:Canny Edge

  • ID-Patch方法流程示意

ID-Patch方法流程

方法原理简述

ID-Patch方法通过以下流程实现多身份个性化合影生成:

  1. 输入文本提示(如”两个人握手”)、多个人脸图像及其位置。
  2. 为每个人提取面部特征,生成ID补丁和ID嵌入。
  3. ID补丁根据指定位置叠加到条件图像上,实现空间控制。
  4. ID嵌入与文本嵌入结合,提升面部相似度。
  5. 通过扩散模型生成最终图像,确保每个人的身份和位置都准确无误。

实验与结论

实验结果显示,ID-Patch在面部相似度、身份-位置关联准确性和生成效率等方面均优于现有方法。其独特的补丁机制和高效的推理流程,为多身份图像生成提供了新的解决思路。

相关链接


本文内容参考自官方论文、项目主页及相关资料,旨在为AI图像生成领域的用户提供通俗易懂的技术解读。如需进一步了解,欢迎访问上述相关链接。