OpenMOSS выпускает MOVA - модель синхронизированной генерации видео и аудио с открытым исходным кодом

29.01.2026

Insert Anything: фреймворк с открытым исходным кодом для бесшовной вставки изображений

Обзор Insert Anything

Insert Anything - это новый фреймворк редактирования изображений с открытым исходным кодом, совместно разработанный исследовательской командой (Wensong Song, Hong Jiang, Zongxing Yang, Ruijie Quan, Yi Yang) из Университета Чжэцзян, Гарвардского университета и Наньянского технологического университета. Этот фреймворк может бесшовно интегрировать объекты из референсных изображений в целевые сцены под пользовательским контрольным руководством.

Этот унифицированный фреймворк вставки изображений поддерживает множественные практические сценарии применения, включая художественное творчество, замену реальных лиц, композицию кинематографических сцен, виртуальную примерку одежды, кастомизацию аксессуаров и цифровую замену реквизита, полностью демонстрируя его универсальность и эффективность в различных задачах редактирования изображений.

Ключевые особенности

Унифицированный фреймворк вставки: Нет необходимости обучать отдельные модели для разных задач, одна модель поддерживает множественные сценарии вставки
Множественные методы контроля: Поддерживает управляемое редактирование на основе масок и текста
Сохранение особенностей идентичности: Точный захват особенностей идентичности и тонких деталей, позволяя разнообразные локальные настройки в стиле, цвете и текстуре
Механизм контекстного редактирования: Обрабатывает референсные изображения как контекстную информацию, используя две стратегии промптинга для гармоничного смешивания вставленных элементов с целевой сценой
Поддержка версии с низким VRAM: Предоставляет версию 10GB VRAM на основе Nunchaku, удобную для обычных пользователей

Демонстрации применения

Создание мемов

Создание мемов - важный сценарий применения для Insert Anything. Вот некоторые сравнительные изображения:

Пример мема 1 Эффект мема 1

Пример мема 2 Эффект мема 2

Пример мема 3 Эффект мема 3

Дизайн коммерческой рекламы

Дизайн коммерческой рекламы - еще один важный сценарий применения для Insert Anything. Вот некоторые сравнительные изображения:

Пример рекламы 1 Эффект рекламы 1

Пример рекламы 2 Эффект рекламы 2

Пример рекламы 3 Эффект рекламы 3

Создание поп-культуры

Создание поп-культуры демонстрирует потенциал Insert Anything в генерации творческого контента:

Пример поп-культуры 1 Эффект поп-культуры 1

Пример поп-культуры 2 Эффект поп-культуры 2

Пример поп-культуры 3 Эффект поп-культуры 3

Пример поп-культуры 4 Эффект поп-культуры 4

Технические особенности

Обзор метода Insert Anything

Insert Anything использует мультимодальный механизм внимания Diffusion Transformer (DiT), поддерживая как управляемое редактирование на основе масок, так и на основе текста. Согласно различным типам промптов, этот унифицированный фреймворк обрабатывает множественные входные изображения (комбинации референсных изображений, исходных изображений и масок) через замороженный VAE энкодер для сохранения высокочастотных деталей, и извлекает семантическое руководство из энкодеров изображений и текста. Эти эмбеддинги объединяются и вводятся в обучаемые DiT трансформерные блоки для контекстного обучения, позволяя точную и гибкую вставку изображений на основе масок или текстовых промптов.

Набор данных AnyInsertion

Примеры набора данных AnyInsertion

Информация о наборе данных AnyInsertion

Для обучения этого унифицированного фреймворка исследовательская команда создала набор данных AnyInsertion, который содержит приблизительно 120 000 пар промпт-изображение, охватывающих различные задачи вставки, такие как вставка людей, объектов и одежды. Набор данных разделен на категории на основе масок и текста, каждая далее подразделяется на подкатегории аксессуаров, объектов и людей.

Пары изображений в наборе данных происходят из интернет-ресурсов, видео людей и многовидовых изображений. Набор данных охватывает различные сценарии вставки:

Мебель и внутренняя отделка
Повседневные предметы
Одежда и аксессуары
Транспортные средства
Люди

Открытый исходный код и использование

Проект Insert Anything был открыт с исходным кодом на GitHub, и любой может свободно загрузить и использовать его:

GitHub репозиторий: song-wensong/insert-anything
Набор данных: WensongSong/AnyInsertion

Проект предоставляет множественные методы использования:

Скрипты вывода командной строки
Интерфейс Gradio
Интеграционные узлы ComfyUI

Аппаратные требования

Insert Anything предлагает две версии:

Стандартная версия: Требует 26GB или 40GB VRAM
Легковесная версия: Оптимизированная версия на основе Nunchaku, требует только 10GB VRAM

Планы на будущее

Согласно информации официального GitHub репозитория, команда планирует:

Выпустить код обучения
Выпустить набор данных текстовых промптов AnyInsertion на HuggingFace

Связанные ссылки

Выпуск этого фреймворка с открытым исходным кодом предоставит творческим работникам, дизайнерам и создателям контента мощный инструмент для достижения более гибких и точных эффектов редактирования изображений.