Step1X-Edit: Marco de edición de imágenes IA de código abierto
Step1X-Edit es un nuevo marco de edición de imágenes de código abierto que utiliza modelos de lenguaje multimodales para procesar imágenes de referencia e instrucciones de edición del usuario, extrayendo incrustaciones latentes e integrándolas con un decodificador de imagen de difusión para obtener la imagen objetivo. Este proyecto pretende ofrecer un rendimiento comparable al de modelos de código cerrado como GPT-4o y Gemini2 Flash.
Características principales
- Edición en lenguaje natural: Admite la edición de imágenes mediante instrucciones en lenguaje natural, como “embellecer”, “cambiar el fondo” o “convertir a estilo pixel art”
- Código abierto y uso comercial: Publicado bajo la licencia Apache 2.0, de libre uso comercial
- Requisitos de hardware flexibles: Ofrece versión cuantizada FP8 para reducir los requisitos de memoria
- Soporte comunitario: Ya cuenta con múltiples versiones comunitarias, incluidos modelos cuantizados FP8
Especificaciones técnicas
Step1X-Edit ofrece varias versiones para adaptarse a diferentes configuraciones de hardware:
Versión del modelo | Memoria GPU máxima (resolución 512/786/1024) | Tiempo de generación en 28 pasos (segundos) |
---|---|---|
Estándar | 42.5GB / 46.5GB / 49.8GB | 5s / 11s / 22s |
Cuantizada FP8 | 31GB / 31.5GB / 34GB | 6.8s / 13.5s / 25s |
Estándar+descarga CPU | 25.9GB / 27.3GB / 29.1GB | 49.6s / 54.1s / 63.2s |
Cuantizada FP8+descarga CPU | 18GB / 18GB / 18GB | 35s / 40s / 51s |
Aunque oficialmente se recomienda utilizar una GPU con 80GB de memoria para obtener el mejor rendimiento y eficiencia, Step1X-Edit también puede ejecutarse en tarjetas gráficas con menos memoria gracias a la cuantización FP8 y la tecnología de descarga a CPU.
Demostración en línea
Puede experimentar directamente con Step1X-Edit a través del siguiente enlace:
Planes futuros
El equipo de Step1X-Edit ya ha completado:
- Publicación del código de inferencia y pesos del modelo
- Demostración en línea (Gradio)
- Pesos cuantizados FP8
Las funcionalidades planificadas incluyen:
- Integración con Diffusers
- Integración con ComfyUI
Enlaces relacionados
- Página del proyecto en GitHub
- Modelo en HuggingFace
- Modelo cuantizado FP8
- Modelo en ModelScope
- Informe técnico (arXiv)
- Conjunto de datos de evaluación GEdit-Bench
El lanzamiento de este proyecto de código abierto permitirá a más usuarios acceder a funciones de edición de imágenes IA de alta calidad sin depender de modelos de código cerrado, mientras que su naturaleza comercializable ofrece más posibilidades a los desarrolladores.