Follow me on X

•ComfyUI Wiki

OpenMOSS 发布 MOVA - 开源音视频同步生成模型

2026/01/29

ID-Patch：多身份个性化合影生成新方法

扩散模型（Diffusion Models）作为文本生成图像的主流技术，在艺术创作和内容生产领域应用广泛。虽然单人图像生成已经相当成熟，但多人场景生成仍面临挑战。用户经常需要生成多人合影或多角色场景，比如补全聚会合影或制作多角色广告。

目前的主要问题是身份特征泄露 - 生成多人图像时，不同人物的面部特征容易混淆，难以保持各自的独特性。同时，用户还希望精确控制每个人的位置和动作，以获得更自然的画面效果。

ID-Patch方法简介

字节跳动与密歇根州立大学联合提出了ID-Patch方法。该方法在身份保持、位置控制和生成效率等方面取得了显著进步。ID-Patch的核心创新在于：

ID补丁（ID Patch）：为每个人物生成独特的身份补丁，精确地放置在条件图像的指定位置，实现空间上的身份控制。
ID嵌入（ID Embedding）：将身份特征与文本嵌入融合，提升面部相似度和身份一致性。
高效推理：ID-Patch的生成速度比OMG快7倍，计算开销也低于InstantFamily。

效果展示

下图展示了ID-Patch与主流方法的对比效果：

ID-Patch与主流方法对比

从左到右依次为：条件输入、OMG（InstantID）、InstantFamily 和 ID-Patch。可以看到，ID-Patch能够更好地保留每个人的详细身份信息，避免了发型丢失、手部伪影和身份混淆等问题。

更多生成示例

使用ID-Patch生成任意姿势的图像：

使用 ID-Patch 生成任意姿势图像

即插即用：Canny Edge 边缘条件生成

即插即用：Canny Edge

ID-Patch方法流程示意

ID-Patch方法流程

方法原理简述

ID-Patch方法通过以下流程实现多身份个性化合影生成：

输入文本提示（如”两个人握手”）、多个人脸图像及其位置。
为每个人提取面部特征，生成ID补丁和ID嵌入。
ID补丁根据指定位置叠加到条件图像上，实现空间控制。
ID嵌入与文本嵌入结合，提升面部相似度。
通过扩散模型生成最终图像，确保每个人的身份和位置都准确无误。

实验与结论

实验结果显示，ID-Patch在面部相似度、身份-位置关联准确性和生成效率等方面均优于现有方法。其独特的补丁机制和高效的推理流程，为多身份图像生成提供了新的解决思路。

相关链接

本文内容参考自官方论文、项目主页及相关资料，旨在为AI图像生成领域的用户提供通俗易懂的技术解读。如需进一步了解，欢迎访问上述相关链接。