Skip to content
Ayuda a Construir una Mejor Base de Conocimientos de ComfyUI Conviértete en Patrocinador
NoticiasInsert Anything: Marco de código abierto para la inserción perfecta de imágenes

Insert Anything: Marco de código abierto para la inserción perfecta de imágenes

Visión general de Insert Anything

Insert Anything es un nuevo marco de edición de imágenes de código abierto desarrollado conjuntamente por un equipo de investigación (Wensong Song, Hong Jiang, Zongxing Yang, Ruijie Quan, Yi Yang) de la Universidad de Zhejiang, la Universidad de Harvard y la Universidad Tecnológica de Nanyang. Este marco puede integrar perfectamente objetos de imágenes de referencia en escenas objetivo bajo la guía de control especificada por el usuario.

Este marco unificado de inserción de imágenes admite múltiples escenarios de aplicación práctica, incluida la creación artística, el reemplazo de rostros reales, la composición de escenas de películas, la prueba virtual de ropa, la personalización de accesorios y el reemplazo de accesorios digitales, demostrando plenamente su versatilidad y eficacia en diversas tareas de edición de imágenes.

Características principales

  • Marco de inserción unificado: No es necesario entrenar modelos separados para diferentes tareas, un modelo admite múltiples escenarios de inserción
  • Múltiples métodos de control: Admite guía de edición basada en máscaras y basada en texto
  • Preservación de características de identidad: Captura con precisión las características de identidad y los detalles finos, al tiempo que permite diversos ajustes locales en estilo, color y textura
  • Mecanismo de edición contextual: Trata las imágenes de referencia como información contextual, utilizando dos estrategias de indicación para mezclar armoniosamente los elementos insertados con la escena objetivo
  • Soporte para versión de baja VRAM: Proporciona una versión de 10GB VRAM basada en Nunchaku, conveniente para usuarios comunes

Demostraciones de aplicación

Creación de memes

La creación de memes es un escenario de aplicación importante para Insert Anything. Aquí hay algunas imágenes comparativas:

Ejemplo de meme 1 Efecto de meme 1

Ejemplo de meme 2 Efecto de meme 2

Ejemplo de meme 3 Efecto de meme 3

Diseño de publicidad comercial

El diseño de publicidad comercial es otro escenario de aplicación importante para Insert Anything. Aquí hay algunas imágenes comparativas:

Ejemplo de anuncio 1 Efecto de anuncio 1

Ejemplo de anuncio 2 Efecto de anuncio 2

Ejemplo de anuncio 3 Efecto de anuncio 3

Creación de cultura pop

La creación de cultura pop muestra el potencial de Insert Anything en la generación de contenido creativo:

Ejemplo de cultura pop 1 Efecto de cultura pop 1

Ejemplo de cultura pop 2 Efecto de cultura pop 2

Ejemplo de cultura pop 3 Efecto de cultura pop 3

Ejemplo de cultura pop 4 Efecto de cultura pop 4

Aspectos técnicos destacados

Visión general del método Insert Anything

Insert Anything utiliza el mecanismo de atención multimodal de Diffusion Transformer (DiT), que admite edición basada en máscaras y basada en texto. Según los diferentes tipos de indicaciones, este marco unificado procesa múltiples imágenes de entrada (combinaciones de imágenes de referencia, imágenes de origen y máscaras) a través de un codificador VAE congelado para preservar detalles de alta frecuencia, y extrae orientación semántica de los codificadores de imagen y texto. Estos embeddings se combinan y se introducen en bloques transformadores DiT aprendibles para el aprendizaje contextual, permitiendo una inserción de imágenes precisa y flexible basada en indicaciones de máscara o texto.

Conjunto de datos AnyInsertion

Ejemplos del conjunto de datos AnyInsertion

Información del conjunto de datos AnyInsertion

Para entrenar este marco unificado, el equipo de investigación creó el conjunto de datos AnyInsertion, que contiene aproximadamente 120,000 pares de imágenes y sugerencias que cubren diversas tareas de inserción como la inserción de personas, objetos y ropa. El conjunto de datos se divide en categorías basadas en máscaras y basadas en texto, cada una subdividida en subcategorías de accesorios, objetos y personas.

Los pares de imágenes en el conjunto de datos provienen de recursos de internet, videos de personas e imágenes de múltiples vistas. El conjunto de datos cubre varios escenarios de inserción:

  • Muebles y decoración interior
  • Necesidades diarias
  • Ropa y accesorios
  • Vehículos de transporte
  • Personas

Código Abierto y Uso

El proyecto Insert Anything ha sido liberado como código abierto en GitHub, y cualquiera puede descargarlo y usarlo libremente:

El proyecto ofrece múltiples métodos de uso:

  • Scripts de inferencia en línea de comandos
  • Interfaz de Gradio
  • Nodos de integración de ComfyUI

Requisitos de Hardware

Insert Anything ofrece dos versiones:

  • Versión Estándar: Requiere 26GB o 40GB de VRAM
  • Versión Ligera: Versión optimizada basada en Nunchaku, requiere solo 10GB de VRAM

Planes Futuros

Según la información del repositorio oficial de GitHub, el equipo planea:

  • Liberar el código de entrenamiento
  • Liberar el conjunto de datos de sugerencias de texto AnyInsertion en HuggingFace

Enlaces Relacionados

La liberación de este marco de código abierto proporcionará a los trabajadores creativos, diseñadores y creadores de contenido una herramienta poderosa para lograr efectos de edición de imágenes más flexibles y precisos.