Alibaba Tongyi Lab lanza Z-Image-Turbo - Modelo eficiente de generación de imágenes con 6B parámetros

El 27 de noviembre de 2025, Alibaba Tongyi Lab lanzó oficialmente Z-Image-Turbo, un modelo de generación de imágenes de nueva generación altamente eficiente. Con solo 6B parámetros, este modelo logra un rendimiento comparable a los modelos insignia de código cerrado con más de 20B parámetros, destacando particularmente en la generación de retratos fotorrealistas de alta fidelidad.

Características principales

Arquitectura de parámetros eficiente

Z-Image-Turbo utiliza una arquitectura DiT de flujo único escalable (S3-DiT) que concatena tokens de texto, semánticos visuales y VAE de imagen a nivel de secuencia como un flujo de entrada unificado, maximizando la eficiencia de parámetros. Este diseño permite que el modelo mantenga una salida de alta calidad mientras reduce significativamente los requisitos de recursos computacionales.

Compatible con GPUs de consumo

Esta es una de las características más atractivas de Z-Image-Turbo:

Uso de VRAM estrictamente controlado a menos de 16GB
Genera imágenes de resolución 1024×1024 en solo 2.3 segundos en RTX 4090
Genera imágenes 2K en solo 4.8 segundos en NVIDIA RTX Pro 6000 Blackwell
Produce imágenes de alta calidad en solo 8 pasos de muestreo
Puede funcionar incluso en RTX 3060 versión de 6GB

Excelente renderizado de texto

Z-Image-Turbo sobresale en el renderizado de texto tanto en chino como en inglés, siendo capaz de:

Renderizar con precisión texto complejo en chino e inglés
Mantener el realismo facial y la estética visual
Lograr resultados comparables a los mejores modelos de código cerrado

Retratos fotorrealistas

El modelo destaca particularmente en la generación de:

Retratos de personajes de alta fidelidad
Texturas de piel naturales y efectos de iluminación
Iluminación y composición cinematográfica
Varios estilos de fotografía de retratos

Uso en ComfyUI

Z-Image-Turbo ahora es compatible con ComfyUI. Necesitas:

Actualizar ComfyUI a la última versión
Descargar los archivos de modelo requeridos
Importar el flujo de trabajo (workflow) para comenzar a usar

Archivos del modelo

Necesitas descargar los siguientes archivos de modelo y colocarlos en los directorios correspondientes:

Codificadores de texto (text_encoders)

qwen_3_4b.safetensors

Modelos de difusión (diffusion_models)

z_image_turbo_bf16.safetensors

VAE

ae.safetensors

Ubicación de almacenamiento de archivos

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── qwen_3_4b.safetensors
│   ├── 📂 diffusion_models/
│   │      └── z_image_turbo_bf16.safetensors
│   └── 📂 vae/
│          └── ae.safetensors

Flujo de trabajo de ComfyUI

Puedes descargar la plantilla de flujo de trabajo (workflow) oficial desde el siguiente enlace:

Flujo de trabajo oficial de Z-Image-Turbo

Planes futuros

El equipo de investigación planea lanzar el modelo base completo sin destilar, que permitirá el ajuste fino impulsado por la comunidad, flujos de trabajo personalizados y un desarrollo más amplio del ecosistema de código abierto.

Enlaces relacionados

Modelo en HuggingFace: https://huggingface.co/Tongyi-MAI/Z-Image-Turbo
Modelo en Comfy-Org: https://huggingface.co/Comfy-Org/z_image_turbo
Blog de ComfyUI: https://blog.comfy.org/p/z-image-turbo-in-comfyui-realism
Sitio web oficial: https://z-image.ai