アリババ通義ラボがZ-Image-Turboを発表 - 6Bパラメータの効率的な画像生成モデル

2025年11月27日、アリババ通義ラボ（Tongyi Lab）は次世代の高効率画像生成モデル「Z-Image-Turbo」を正式に発表しました。わずか6Bパラメータでありながら、20B以上のパラメータを持つクローズドソースのフラッグシップモデルに匹敵する性能を実現し、特に高忠実度でフォトリアリスティックなポートレート生成に優れています。

主な特徴

効率的なパラメータアーキテクチャ

Z-Image-Turboは、スケーラブルなシングルストリームDiT（S3-DiT）アーキテクチャを採用し、テキスト、視覚的意味トークン、画像VAEトークンをシーケンスレベルで統合入力ストリームとして連結することで、パラメータ効率を最大化しています。この設計により、モデルは高品質な出力を維持しながら、計算リソース要件を大幅に削減できます。

コンシューマー向けGPU対応

これはZ-Image-Turboの最も魅力的な特徴の一つです：

VRAM使用量を16GB以下に厳密に制御
RTX 4090で1024×1024解像度の画像をわずか2.3秒で生成
NVIDIA RTX Pro 6000 Blackwellで2K画像をわずか4.8秒で生成
わずか8ステップのサンプリングで高品質な画像を生成
RTX 3060 6GBバージョンでも動作可能

優れたテキストレンダリング

Z-Image-Turboは中国語と英語のテキストレンダリングに優れています：

複雑な中国語・英語テキストを正確にレンダリング
顔のリアリズムと視覚的美しさを維持
トップクラスのクローズドソースモデルに匹敵する結果を達成

フォトリアリスティックなポートレート

このモデルは以下の生成に特に優れています：

高忠実度のキャラクターポートレート
自然な肌のテクスチャと照明効果
シネマティックな照明と構図
さまざまなスタイルのポートレート写真

ComfyUIでの使用

Z-Image-TurboはComfyUIでサポートされています。以下が必要です：

ComfyUIを最新バージョンにアップデート
必要なモデルファイルをダウンロード
ワークフロー（workflow）をインポートして使用開始

モデルファイル

以下のモデルファイルをダウンロードし、対応するディレクトリに配置する必要があります：

テキストエンコーダー（text_encoders）

qwen_3_4b.safetensors

拡散モデル（diffusion_models）

z_image_turbo_bf16.safetensors

VAE

ae.safetensors

ファイル配置場所

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── qwen_3_4b.safetensors
│   ├── 📂 diffusion_models/
│   │      └── z_image_turbo_bf16.safetensors
│   └── 📂 vae/
│          └── ae.safetensors

ComfyUIワークフロー

以下のリンクから公式ワークフロー（workflow）テンプレートをダウンロードできます：

Z-Image-Turbo公式ワークフロー

今後の計画

研究チームは、完全な非蒸留ベースモデルをリリースする予定で、これによりコミュニティ主導のファインチューニング、カスタムワークフロー、より広範なオープンソースエコシステムの開発が可能になります。