Step1X-Edit: Marco de edición de imágenes IA de código abierto

Demostración de Step1X-Edit

Step1X-Edit es un nuevo marco de edición de imágenes de código abierto que utiliza modelos de lenguaje multimodales para procesar imágenes de referencia e instrucciones de edición del usuario, extrayendo incrustaciones latentes e integrándolas con un decodificador de imagen de difusión para obtener la imagen objetivo. Este proyecto pretende ofrecer un rendimiento comparable al de modelos de código cerrado como GPT-4o y Gemini2 Flash.

Características principales

Edición en lenguaje natural: Admite la edición de imágenes mediante instrucciones en lenguaje natural, como “embellecer”, “cambiar el fondo” o “convertir a estilo pixel art”
Código abierto y uso comercial: Publicado bajo la licencia Apache 2.0, de libre uso comercial
Requisitos de hardware flexibles: Ofrece versión cuantizada FP8 para reducir los requisitos de memoria
Soporte comunitario: Ya cuenta con múltiples versiones comunitarias, incluidos modelos cuantizados FP8

Especificaciones técnicas

Step1X-Edit ofrece varias versiones para adaptarse a diferentes configuraciones de hardware:

Versión del modelo	Memoria GPU máxima (resolución 512/786/1024)	Tiempo de generación en 28 pasos (segundos)
Estándar	42.5GB / 46.5GB / 49.8GB	5s / 11s / 22s
Cuantizada FP8	31GB / 31.5GB / 34GB	6.8s / 13.5s / 25s
Estándar+descarga CPU	25.9GB / 27.3GB / 29.1GB	49.6s / 54.1s / 63.2s
Cuantizada FP8+descarga CPU	18GB / 18GB / 18GB	35s / 40s / 51s

Aunque oficialmente se recomienda utilizar una GPU con 80GB de memoria para obtener el mejor rendimiento y eficiencia, Step1X-Edit también puede ejecutarse en tarjetas gráficas con menos memoria gracias a la cuantización FP8 y la tecnología de descarga a CPU.

Demostración en línea

Puede experimentar directamente con Step1X-Edit a través del siguiente enlace:

Step1X-Edit

Planes futuros

El equipo de Step1X-Edit ya ha completado:

Publicación del código de inferencia y pesos del modelo
Demostración en línea (Gradio)
Pesos cuantizados FP8

Las funcionalidades planificadas incluyen:

Integración con Diffusers
Integración con ComfyUI

Enlaces relacionados

El lanzamiento de este proyecto de código abierto permitirá a más usuarios acceder a funciones de edición de imágenes IA de alta calidad sin depender de modelos de código cerrado, mientras que su naturaleza comercializable ofrece más posibilidades a los desarrolladores.

RunningHub

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD

优云智算

ComfyUI Lanza Oficialmente la Función Subgraph