PixelFlow: Modelos Generativos que Trabajan Directamente en el Espacio de Píxeles
Investigadores de la Universidad de Hong Kong y Adobe han desarrollado conjuntamente PixelFlow, una familia de modelos de generación de imágenes que trabajan directamente en el espacio de píxeles sin procesar. A diferencia de los modelos de espacio latente actualmente dominantes, PixelFlow adopta un enfoque completamente nuevo para la generación de imágenes.
Características Innovadoras
La innovación más significativa de PixelFlow es que opera directamente en el espacio de píxeles sin procesar, en lugar de en el espacio latente como la mayoría de los modelos convencionales. Este enfoque simplifica el proceso de generación de imágenes con las siguientes ventajas:
- No depende de Autocodificadores Variacionales (VAE) preentrenados
- Permite el entrenamiento de extremo a extremo de todo el modelo
- Logra un costo computacional asequible en el espacio de píxeles mediante un modelado eficiente de flujo en cascada
En el punto de referencia de generación de imágenes condicional por clase de ImageNet 256x256, PixelFlow logró una puntuación FID de 1.98, mientras que los resultados de texto a imagen demuestran su excelencia en calidad de imagen, artisticidad y control semántico.
Demostración en Línea
El equipo de PixelFlow proporciona una demostración en línea en HuggingFace para que los usuarios experimenten las capacidades de generación de imágenes del modelo: https://huggingface.co/spaces/ShoufaChen/PixelFlow
Biblioteca de Modelos
PixelFlow ofrece actualmente dos modelos:
- Modelo de clase a imagen: 677M parámetros, puntuación FID de 1.98
- Modelo de texto a imagen: 882M parámetros
La información detallada sobre estos dos modelos es la siguiente:
Nombre del Modelo | Tarea | Parámetros | FID | Pesos del Modelo |
---|---|---|---|---|
PixelFlow | Clase a imagen | 677M | 1.98 | 🤗 |
PixelFlow | Texto a imagen | 882M | N/A | 🤗 |
Ambos modelos están disponibles en la plataforma HuggingFace.
Perspectivas Futuras
El equipo de investigación espera que este nuevo paradigma inspire y abra nuevas oportunidades para los modelos de generación visual de próxima generación. El enfoque de PixelFlow puede reducir el umbral de desarrollo para modelos generativos, inspirando métodos de generación de imágenes más eficientes y ligeros.