Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
ID-Patch: новый метод для генерации персонализированных групповых фотографий с множественной идентичностью
Диффузионные модели, как основная технология для генерации текста в изображения, широко используются в художественном творчестве и производстве контента. В то время как генерация изображений одного человека стала довольно зрелой, генерация многоперсональных сцен все еще сталкивается с проблемами. Пользователи часто нуждаются в генерации групповых фотографий или многоперсональных сцен, таких как завершение групповых фотографий или создание многоперсональной рекламы.
Основная текущая проблема - утечка особенностей идентичности - при генерации многоперсональных изображений лицевые особенности разных людей склонны смешиваться, что затрудняет поддержание их уникальных характеристик. Дополнительно, пользователи хотят точный контроль над позицией и позой каждого человека для достижения более естественных результатов.
Введение в метод ID-Patch
ByteDance и Университет штата Мичиган совместно предложили метод ID-Patch. Этот метод достиг значительного прогресса в сохранении идентичности, контроле позиции и эффективности генерации. Основные инновации ID-Patch включают:
- ID Patch: Генерирует уникальные патчи идентичности для каждого человека, точно размещенные в указанных местах в условном изображении для достижения пространственного контроля идентичности.
- ID Embedding: Сочетает особенности идентичности с текстовыми эмбеддингами для улучшения лицевого сходства и согласованности идентичности.
- Эффективный вывод: ID-Patch генерирует изображения в 7 раз быстрее, чем OMG, и имеет более низкие вычислительные затраты, чем InstantFamily.
Демонстрация результатов
Следующее изображение показывает сравнение между ID-Patch и основными методами:
Слева направо: условный ввод, OMG (InstantID), InstantFamily и ID-Patch. Видно, что ID-Patch лучше сохраняет детальную информацию идентичности для каждого человека, избегая проблем таких как потеря волос, артефакты рук и путаница идентичности.
Больше примеров генерации
- Использование ID-Patch для генерации изображений с произвольными позами:
- Plug-and-play: условная генерация Canny Edge
- Рабочий процесс метода ID-Patch
Обзор метода
Метод ID-Patch достигает генерации персонализированных групповых фотографий с множественной идентичностью через следующий процесс:
- Ввод текстовых промптов (например, “два человека пожимают руки”), множественных изображений лиц и их позиций.
- Извлечение лицевых особенностей для каждого человека и генерация ID патчей и ID эмбеддингов.
- Наложение ID патчей на условное изображение в указанных позициях для достижения пространственного контроля.
- Сочетание ID эмбеддингов с текстовыми эмбеддингами для улучшения лицевого сходства.
- Генерация финального изображения через диффузионную модель, обеспечивая точную идентичность и позицию для каждого человека.
Эксперименты и выводы
Экспериментальные результаты показывают, что ID-Patch превосходит существующие методы в терминах лицевого сходства, точности корреляции идентичности-позиции и эффективности генерации. Его уникальный механизм патчей и эффективный конвейер вывода предоставляет новое решение для генерации изображений с множественной идентичностью.
Связанные ссылки
Этот контент основан на официальной статье, странице проекта и соответствующих материалах, направлен на предоставление доступной технической интерпретации для пользователей в области генерации ИИ-изображений. Для получения дополнительной информации, пожалуйста, посетите ссылки выше.