THUDM Open Sources New Image Generation Models: CogView3 and CogView-3Plus

THUDM recientemente ha liberado sus últimos modelos de generación de imágenes, CogView3 y CogView-3Plus-3B en GitHub. Estos dos modelos representan los últimos avances en el campo de la generación de imágenes a partir de texto, demostrando un rendimiento y eficiencia impresionantes.

CogView3: Innovación en Difusión en Cascada

CogView3 es un sistema de generación de imágenes a partir de texto basado en difusión en cascada. Emplea un marco novedoso llamado "difusión de relevo", que descompone el proceso de generación de imágenes de alta resolución en múltiples etapas. A través del proceso de super-resolución de relevo, el sistema primero genera imágenes de baja resolución, luego les añade ruido gaussiano y comienza un nuevo proceso de difusión a partir de estas imágenes ruidosas.

Según la investigación de THUDM, CogView3 supera a SDXL en evaluaciones humanas con una tasa de victoria de hasta el 77.0%. Aún más sorprendentemente, el tiempo de generación de CogView3 es solo una décima parte del de SDXL, lo que tiene implicaciones significativas para aplicaciones prácticas.

CogView-3Plus-3B: Modelo DiT Ligero

Junto a CogView3, THUDM también ha liberado CogView-3Plus-3B, un modelo de generación de imágenes basado en la arquitectura DiT (Diffusion Transformer). El modelo DiT combina las ventajas de los modelos de difusión y los Transformers, demostrando un rendimiento poderoso en tareas de generación de imágenes.

Como un modelo relativamente ligero (con solo 3B de parámetros), CogView-3Plus-3B tiene como objetivo proporcionar velocidades de inferencia más rápidas y menores requisitos de recursos, manteniendo una salida de alta calidad.

Contribución de Código Abierto

Al liberar CogView3 y CogView-3Plus-3B, THUDM no solo proporciona recursos valiosos para la comunidad de investigación, sino que también ofrece posibilidades para que desarrolladores y empresas integren tecnologías avanzadas de generación de imágenes en aplicaciones prácticas. La liberación de estos dos modelos ayudará a avanzar aún más en la tecnología de generación de imágenes a partir de texto y sus aplicaciones.

Perspectivas Futuras

Con la liberación de CogView3 y CogView-3Plus-3B, podemos esperar ver más aplicaciones innovadoras basadas en estos modelos. Desde diseño creativo hasta generación de contenido y herramientas de ayuda visual, estos modelos tienen una amplia gama de escenarios de aplicación potenciales.

Al mismo tiempo, esto también proporciona referencias valiosas para otros equipos de investigación, potencialmente inspirando más innovaciones y avances en el campo de la generación de imágenes.

Enlaces de Referencia

Repositorio de CogView3 en GitHub: https://github.com/THUDM/CogView3

CogView3: Innovación en Difusión en Cascada

CogView-3Plus-3B: Modelo DiT Ligero

Contribución de Código Abierto

Perspectivas Futuras

Enlaces de Referencia

Comentarios