Avance en generación de imágenes: CogView4 se lanza oficialmente
El equipo THUDM de inteligencia artificial ha lanzado oficialmente el modelo de generación multimodal CogView4, el primer modelo Transformador de Difusión (DiT) de código abierto con soporte nativo para prompts en chino y capacidad de generar caracteres chinos en imágenes. En las pruebas de referencia DPG-Bench, el modelo obtuvo una puntuación total de 85.13, liderando el ranking actual.
Características principales
Capacidad bilingüe
- Utiliza codificador de texto GLM-4 mejorado
- Base de entrenamiento con millones de pares texto-imagen chino-inglés
- Precisión en generación de caracteres chinos (F1-score 61.68%)
Procesamiento inteligente de texto
- Soporte dinámico para longitudes de texto (hasta 1024 tokens)
- Reduce 50% de cálculos redundantes
- Aumenta eficiencia de entrenamiento hasta 30%
Generación flexible
- Soporta resoluciones de 512px a 2048px
- Entrenamiento con múltiples proporciones (9:16, 1:1, 4:3)
- Optimizado para redes sociales
Ventajas técnicas
Marco innovador de “difusión por etapas”:
- Fase base: Construye contornos de baja resolución
- Super-resolución: Refina detalles con técnica flow-matching
- Planificación dinámica: Optimiza equilibrio velocidad-calidad
Resultados en pruebas:
- Puntuación DPG-Bench 85.13 vs SDXL (74.65) y DALL-E 3 (83.50)
- Capacidad de escenas complejas (T2I-CompBench 0.3869)
- Precisión en chino 114% mejor que modelos similares
Requisitos de hardware
Opciones de optimización:
- Modo básico: Funciona con RTX 3090 (512x512)
- Optimización de memoria: Reduce uso a 13GB
- Cuantización 4bit: Acelera inferencia
Cómo usar
Disponible en HuggingFace Spaces para pruebas online. Desarrolladores pueden acceder al código completo mediante API para:
- Entrada de prompts bilingües
- Configuración de tamaño personalizado
- Generación por lotes
Recursos relacionados
El equipo THUDM anunció próximas actualizaciones incluyendo soporte para ControlNet, flujos de trabajo visuales en ComfyUI, y herramientas de fine-tuning para usuarios generales.