阿里巴巴通义实验室发布 Z-Image-Turbo - 高效6B参数图像生成模型

2025年11月27日，阿里巴巴通义实验室（Tongyi Lab）正式发布了新一代高效图像生成模型 Z-Image-Turbo。该模型以仅6B的参数规模，实现了与20B以上参数闭源旗舰模型相媲美的性能，特别擅长生成高保真度的照片级真实人像。

主要特性

高效的参数架构

Z-Image-Turbo 采用可扩展单流 DiT（S3-DiT）架构，将文本、视觉语义 token 和图像 VAE token 在序列级别进行拼接，作为统一的输入流，最大化参数效率。这种设计使得模型能够在保持高质量输出的同时，大幅降低计算资源需求。

消费级显卡友好

这是 Z-Image-Turbo 最吸引人的特点之一：

显存占用严格控制在 16GB 以内
在 RTX 4090 上仅需 2.3秒 即可生成 1024×1024 分辨率图像
在 NVIDIA RTX Pro 6000 Blackwell 上生成 2K 图像仅需 4.8秒
仅需 8步采样 即可生成高质量图像
甚至在 RTX 3060 6G 版本上也能运行

出色的文本渲染能力

Z-Image-Turbo 在中英文文本渲染方面表现优异，能够：

准确渲染复杂的中英文文本
保持人脸真实性和画面美感
效果媲美顶尖闭源模型

照片级真实人像

模型特别擅长生成：

高保真度的人物肖像
自然的皮肤纹理和光影效果
电影级的打光和构图
各种风格的人像摄影效果

在 ComfyUI 中使用

Z-Image-Turbo 已经支持在 ComfyUI 中使用。你需要：

将 ComfyUI 更新到最新版本
下载对应的模型文件
导入工作流即可开始使用

模型文件

你需要下载以下模型文件并放置到对应目录：

文本编码器（text_encoders）

qwen_3_4b.safetensors

扩散模型（diffusion_models）

z_image_turbo_bf16.safetensors

VAE

ae.safetensors

文件存放位置

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── qwen_3_4b.safetensors
│   ├── 📂 diffusion_models/
│   │      └── z_image_turbo_bf16.safetensors
│   └── 📂 vae/
│          └── ae.safetensors

ComfyUI 工作流

你可以从以下链接下载官方工作流模板：

Z-Image-Turbo 官方工作流

未来计划

研究团队计划发布完整的非蒸馏基础模型，届时将支持社区驱动的微调、自定义工作流和更广泛的开源生态开发。