Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиInsert Anything: фреймворк с открытым исходным кодом для бесшовной вставки изображений

Insert Anything: фреймворк с открытым исходным кодом для бесшовной вставки изображений

Обзор Insert Anything

Insert Anything - это новый фреймворк редактирования изображений с открытым исходным кодом, совместно разработанный исследовательской командой (Wensong Song, Hong Jiang, Zongxing Yang, Ruijie Quan, Yi Yang) из Университета Чжэцзян, Гарвардского университета и Наньянского технологического университета. Этот фреймворк может бесшовно интегрировать объекты из референсных изображений в целевые сцены под пользовательским контрольным руководством.

Этот унифицированный фреймворк вставки изображений поддерживает множественные практические сценарии применения, включая художественное творчество, замену реальных лиц, композицию кинематографических сцен, виртуальную примерку одежды, кастомизацию аксессуаров и цифровую замену реквизита, полностью демонстрируя его универсальность и эффективность в различных задачах редактирования изображений.

Ключевые особенности

  • Унифицированный фреймворк вставки: Нет необходимости обучать отдельные модели для разных задач, одна модель поддерживает множественные сценарии вставки
  • Множественные методы контроля: Поддерживает управляемое редактирование на основе масок и текста
  • Сохранение особенностей идентичности: Точный захват особенностей идентичности и тонких деталей, позволяя разнообразные локальные настройки в стиле, цвете и текстуре
  • Механизм контекстного редактирования: Обрабатывает референсные изображения как контекстную информацию, используя две стратегии промптинга для гармоничного смешивания вставленных элементов с целевой сценой
  • Поддержка версии с низким VRAM: Предоставляет версию 10GB VRAM на основе Nunchaku, удобную для обычных пользователей

Демонстрации применения

Создание мемов

Создание мемов - важный сценарий применения для Insert Anything. Вот некоторые сравнительные изображения:

Пример мема 1 Эффект мема 1

Пример мема 2 Эффект мема 2

Пример мема 3 Эффект мема 3

Дизайн коммерческой рекламы

Дизайн коммерческой рекламы - еще один важный сценарий применения для Insert Anything. Вот некоторые сравнительные изображения:

Пример рекламы 1 Эффект рекламы 1

Пример рекламы 2 Эффект рекламы 2

Пример рекламы 3 Эффект рекламы 3

Создание поп-культуры

Создание поп-культуры демонстрирует потенциал Insert Anything в генерации творческого контента:

Пример поп-культуры 1 Эффект поп-культуры 1

Пример поп-культуры 2 Эффект поп-культуры 2

Пример поп-культуры 3 Эффект поп-культуры 3

Пример поп-культуры 4 Эффект поп-культуры 4

Технические особенности

Обзор метода Insert Anything

Insert Anything использует мультимодальный механизм внимания Diffusion Transformer (DiT), поддерживая как управляемое редактирование на основе масок, так и на основе текста. Согласно различным типам промптов, этот унифицированный фреймворк обрабатывает множественные входные изображения (комбинации референсных изображений, исходных изображений и масок) через замороженный VAE энкодер для сохранения высокочастотных деталей, и извлекает семантическое руководство из энкодеров изображений и текста. Эти эмбеддинги объединяются и вводятся в обучаемые DiT трансформерные блоки для контекстного обучения, позволяя точную и гибкую вставку изображений на основе масок или текстовых промптов.

Набор данных AnyInsertion

Примеры набора данных AnyInsertion

Информация о наборе данных AnyInsertion

Для обучения этого унифицированного фреймворка исследовательская команда создала набор данных AnyInsertion, который содержит приблизительно 120 000 пар промпт-изображение, охватывающих различные задачи вставки, такие как вставка людей, объектов и одежды. Набор данных разделен на категории на основе масок и текста, каждая далее подразделяется на подкатегории аксессуаров, объектов и людей.

Пары изображений в наборе данных происходят из интернет-ресурсов, видео людей и многовидовых изображений. Набор данных охватывает различные сценарии вставки:

  • Мебель и внутренняя отделка
  • Повседневные предметы
  • Одежда и аксессуары
  • Транспортные средства
  • Люди

Открытый исходный код и использование

Проект Insert Anything был открыт с исходным кодом на GitHub, и любой может свободно загрузить и использовать его:

Проект предоставляет множественные методы использования:

  • Скрипты вывода командной строки
  • Интерфейс Gradio
  • Интеграционные узлы ComfyUI

Аппаратные требования

Insert Anything предлагает две версии:

  • Стандартная версия: Требует 26GB или 40GB VRAM
  • Легковесная версия: Оптимизированная версия на основе Nunchaku, требует только 10GB VRAM

Планы на будущее

Согласно информации официального GitHub репозитория, команда планирует:

  • Выпустить код обучения
  • Выпустить набор данных текстовых промптов AnyInsertion на HuggingFace

Связанные ссылки

Выпуск этого фреймворка с открытым исходным кодом предоставит творческим работникам, дизайнерам и создателям контента мощный инструмент для достижения более гибких и точных эффектов редактирования изображений.