Insert Anything: Marco de código abierto para la inserción perfecta de imágenes
Insert Anything es un nuevo marco de edición de imágenes de código abierto desarrollado conjuntamente por un equipo de investigación (Wensong Song, Hong Jiang, Zongxing Yang, Ruijie Quan, Yi Yang) de la Universidad de Zhejiang, la Universidad de Harvard y la Universidad Tecnológica de Nanyang. Este marco puede integrar perfectamente objetos de imágenes de referencia en escenas objetivo bajo la guía de control especificada por el usuario.
Este marco unificado de inserción de imágenes admite múltiples escenarios de aplicación práctica, incluida la creación artística, el reemplazo de rostros reales, la composición de escenas de películas, la prueba virtual de ropa, la personalización de accesorios y el reemplazo de accesorios digitales, demostrando plenamente su versatilidad y eficacia en diversas tareas de edición de imágenes.
Características principales
- Marco de inserción unificado: No es necesario entrenar modelos separados para diferentes tareas, un modelo admite múltiples escenarios de inserción
- Múltiples métodos de control: Admite guía de edición basada en máscaras y basada en texto
- Preservación de características de identidad: Captura con precisión las características de identidad y los detalles finos, al tiempo que permite diversos ajustes locales en estilo, color y textura
- Mecanismo de edición contextual: Trata las imágenes de referencia como información contextual, utilizando dos estrategias de indicación para mezclar armoniosamente los elementos insertados con la escena objetivo
- Soporte para versión de baja VRAM: Proporciona una versión de 10GB VRAM basada en Nunchaku, conveniente para usuarios comunes
Demostraciones de aplicación
Creación de memes
La creación de memes es un escenario de aplicación importante para Insert Anything. Aquí hay algunas imágenes comparativas:
Diseño de publicidad comercial
El diseño de publicidad comercial es otro escenario de aplicación importante para Insert Anything. Aquí hay algunas imágenes comparativas:
Creación de cultura pop
La creación de cultura pop muestra el potencial de Insert Anything en la generación de contenido creativo:
Aspectos técnicos destacados
Insert Anything utiliza el mecanismo de atención multimodal de Diffusion Transformer (DiT), que admite edición basada en máscaras y basada en texto. Según los diferentes tipos de indicaciones, este marco unificado procesa múltiples imágenes de entrada (combinaciones de imágenes de referencia, imágenes de origen y máscaras) a través de un codificador VAE congelado para preservar detalles de alta frecuencia, y extrae orientación semántica de los codificadores de imagen y texto. Estos embeddings se combinan y se introducen en bloques transformadores DiT aprendibles para el aprendizaje contextual, permitiendo una inserción de imágenes precisa y flexible basada en indicaciones de máscara o texto.
Conjunto de datos AnyInsertion
Para entrenar este marco unificado, el equipo de investigación creó el conjunto de datos AnyInsertion, que contiene aproximadamente 120,000 pares de imágenes y sugerencias que cubren diversas tareas de inserción como la inserción de personas, objetos y ropa. El conjunto de datos se divide en categorías basadas en máscaras y basadas en texto, cada una subdividida en subcategorías de accesorios, objetos y personas.
Los pares de imágenes en el conjunto de datos provienen de recursos de internet, videos de personas e imágenes de múltiples vistas. El conjunto de datos cubre varios escenarios de inserción:
- Muebles y decoración interior
- Necesidades diarias
- Ropa y accesorios
- Vehículos de transporte
- Personas
Código Abierto y Uso
El proyecto Insert Anything ha sido liberado como código abierto en GitHub, y cualquiera puede descargarlo y usarlo libremente:
- Repositorio de GitHub: song-wensong/insert-anything
- Conjunto de datos: WensongSong/AnyInsertion
El proyecto ofrece múltiples métodos de uso:
- Scripts de inferencia en línea de comandos
- Interfaz de Gradio
- Nodos de integración de ComfyUI
Requisitos de Hardware
Insert Anything ofrece dos versiones:
- Versión Estándar: Requiere 26GB o 40GB de VRAM
- Versión Ligera: Versión optimizada basada en Nunchaku, requiere solo 10GB de VRAM
Planes Futuros
Según la información del repositorio oficial de GitHub, el equipo planea:
- Liberar el código de entrenamiento
- Liberar el conjunto de datos de sugerencias de texto AnyInsertion en HuggingFace
Enlaces Relacionados
La liberación de este marco de código abierto proporcionará a los trabajadores creativos, diseñadores y creadores de contenido una herramienta poderosa para lograr efectos de edición de imágenes más flexibles y precisos.