Skip to content
Follow me on X
ComfyUI Wiki
新闻阿里巴巴通义实验室发布 Z-Image-Turbo - 高效6B参数图像生成模型

阿里巴巴通义实验室发布 Z-Image-Turbo - 高效6B参数图像生成模型

2025年11月27日,阿里巴巴通义实验室(Tongyi Lab)正式发布了新一代高效图像生成模型 Z-Image-Turbo。该模型以仅6B的参数规模,实现了与20B以上参数闭源旗舰模型相媲美的性能,特别擅长生成高保真度的照片级真实人像。

主要特性

高效的参数架构

Z-Image-Turbo 采用可扩展单流 DiT(S3-DiT)架构,将文本、视觉语义 token 和图像 VAE token 在序列级别进行拼接,作为统一的输入流,最大化参数效率。这种设计使得模型能够在保持高质量输出的同时,大幅降低计算资源需求。

消费级显卡友好

这是 Z-Image-Turbo 最吸引人的特点之一:

  • 显存占用严格控制在 16GB 以内
  • 在 RTX 4090 上仅需 2.3秒 即可生成 1024×1024 分辨率图像
  • 在 NVIDIA RTX Pro 6000 Blackwell 上生成 2K 图像仅需 4.8秒
  • 仅需 8步采样 即可生成高质量图像
  • 甚至在 RTX 3060 6G 版本上也能运行

出色的文本渲染能力

Z-Image-Turbo 在中英文文本渲染方面表现优异,能够:

  • 准确渲染复杂的中英文文本
  • 保持人脸真实性和画面美感
  • 效果媲美顶尖闭源模型

照片级真实人像

模型特别擅长生成:

  • 高保真度的人物肖像
  • 自然的皮肤纹理和光影效果
  • 电影级的打光和构图
  • 各种风格的人像摄影效果

在 ComfyUI 中使用

Z-Image-Turbo 已经支持在 ComfyUI 中使用。你需要:

  1. 将 ComfyUI 更新到最新版本
  2. 下载对应的模型文件
  3. 导入工作流即可开始使用

模型文件

你需要下载以下模型文件并放置到对应目录:

文本编码器(text_encoders)

扩散模型(diffusion_models)

VAE

文件存放位置

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── qwen_3_4b.safetensors
│   ├── 📂 diffusion_models/
│   │      └── z_image_turbo_bf16.safetensors
│   └── 📂 vae/
│          └── ae.safetensors

ComfyUI 工作流

你可以从以下链接下载官方工作流模板:

未来计划

研究团队计划发布完整的非蒸馏基础模型,届时将支持社区驱动的微调、自定义工作流和更广泛的开源生态开发。

相关链接