Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
Insert Anything: фреймворк с открытым исходным кодом для бесшовной вставки изображений
Insert Anything - это новый фреймворк редактирования изображений с открытым исходным кодом, совместно разработанный исследовательской командой (Wensong Song, Hong Jiang, Zongxing Yang, Ruijie Quan, Yi Yang) из Университета Чжэцзян, Гарвардского университета и Наньянского технологического университета. Этот фреймворк может бесшовно интегрировать объекты из референсных изображений в целевые сцены под пользовательским контрольным руководством.
Этот унифицированный фреймворк вставки изображений поддерживает множественные практические сценарии применения, включая художественное творчество, замену реальных лиц, композицию кинематографических сцен, виртуальную примерку одежды, кастомизацию аксессуаров и цифровую замену реквизита, полностью демонстрируя его универсальность и эффективность в различных задачах редактирования изображений.
Ключевые особенности
- Унифицированный фреймворк вставки: Нет необходимости обучать отдельные модели для разных задач, одна модель поддерживает множественные сценарии вставки
- Множественные методы контроля: Поддерживает управляемое редактирование на основе масок и текста
- Сохранение особенностей идентичности: Точный захват особенностей идентичности и тонких деталей, позволяя разнообразные локальные настройки в стиле, цвете и текстуре
- Механизм контекстного редактирования: Обрабатывает референсные изображения как контекстную информацию, используя две стратегии промптинга для гармоничного смешивания вставленных элементов с целевой сценой
- Поддержка версии с низким VRAM: Предоставляет версию 10GB VRAM на основе Nunchaku, удобную для обычных пользователей
Демонстрации применения
Создание мемов
Создание мемов - важный сценарий применения для Insert Anything. Вот некоторые сравнительные изображения:
Дизайн коммерческой рекламы
Дизайн коммерческой рекламы - еще один важный сценарий применения для Insert Anything. Вот некоторые сравнительные изображения:
Создание поп-культуры
Создание поп-культуры демонстрирует потенциал Insert Anything в генерации творческого контента:
Технические особенности
Insert Anything использует мультимодальный механизм внимания Diffusion Transformer (DiT), поддерживая как управляемое редактирование на основе масок, так и на основе текста. Согласно различным типам промптов, этот унифицированный фреймворк обрабатывает множественные входные изображения (комбинации референсных изображений, исходных изображений и масок) через замороженный VAE энкодер для сохранения высокочастотных деталей, и извлекает семантическое руководство из энкодеров изображений и текста. Эти эмбеддинги объединяются и вводятся в обучаемые DiT трансформерные блоки для контекстного обучения, позволяя точную и гибкую вставку изображений на основе масок или текстовых промптов.
Набор данных AnyInsertion
Для обучения этого унифицированного фреймворка исследовательская команда создала набор данных AnyInsertion, который содержит приблизительно 120 000 пар промпт-изображение, охватывающих различные задачи вставки, такие как вставка людей, объектов и одежды. Набор данных разделен на категории на основе масок и текста, каждая далее подразделяется на подкатегории аксессуаров, объектов и людей.
Пары изображений в наборе данных происходят из интернет-ресурсов, видео людей и многовидовых изображений. Набор данных охватывает различные сценарии вставки:
- Мебель и внутренняя отделка
- Повседневные предметы
- Одежда и аксессуары
- Транспортные средства
- Люди
Открытый исходный код и использование
Проект Insert Anything был открыт с исходным кодом на GitHub, и любой может свободно загрузить и использовать его:
- GitHub репозиторий: song-wensong/insert-anything
- Набор данных: WensongSong/AnyInsertion
Проект предоставляет множественные методы использования:
- Скрипты вывода командной строки
- Интерфейс Gradio
- Интеграционные узлы ComfyUI
Аппаратные требования
Insert Anything предлагает две версии:
- Стандартная версия: Требует 26GB или 40GB VRAM
- Легковесная версия: Оптимизированная версия на основе Nunchaku, требует только 10GB VRAM
Планы на будущее
Согласно информации официального GitHub репозитория, команда планирует:
- Выпустить код обучения
- Выпустить набор данных текстовых промптов AnyInsertion на HuggingFace
Связанные ссылки
Выпуск этого фреймворка с открытым исходным кодом предоставит творческим работникам, дизайнерам и создателям контента мощный инструмент для достижения более гибких и точных эффектов редактирования изображений.