アリババ通義ラボがZ-Image-Turboを発表 - 6Bパラメータの効率的な画像生成モデル
2025年11月27日、アリババ通義ラボ(Tongyi Lab)は次世代の高効率画像生成モデル「Z-Image-Turbo」を正式に発表しました。わずか6Bパラメータでありながら、20B以上のパラメータを持つクローズドソースのフラッグシップモデルに匹敵する性能を実現し、特に高忠実度でフォトリアリスティックなポートレート生成に優れています。
主な特徴
効率的なパラメータアーキテクチャ
Z-Image-Turboは、スケーラブルなシングルストリームDiT(S3-DiT)アーキテクチャを採用し、テキスト、視覚的意味トークン、画像VAEトークンをシーケンスレベルで統合入力ストリームとして連結することで、パラメータ効率を最大化しています。この設計により、モデルは高品質な出力を維持しながら、計算リソース要件を大幅に削減できます。
コンシューマー向けGPU対応
これはZ-Image-Turboの最も魅力的な特徴の一つです:
- VRAM使用量を16GB以下に厳密に制御
- RTX 4090で1024×1024解像度の画像をわずか2.3秒で生成
- NVIDIA RTX Pro 6000 Blackwellで2K画像をわずか4.8秒で生成
- わずか8ステップのサンプリングで高品質な画像を生成
- RTX 3060 6GBバージョンでも動作可能
優れたテキストレンダリング
Z-Image-Turboは中国語と英語のテキストレンダリングに優れています:
- 複雑な中国語・英語テキストを正確にレンダリング
- 顔のリアリズムと視覚的美しさを維持
- トップクラスのクローズドソースモデルに匹敵する結果を達成
フォトリアリスティックなポートレート
このモデルは以下の生成に特に優れています:
- 高忠実度のキャラクターポートレート
- 自然な肌のテクスチャと照明効果
- シネマティックな照明と構図
- さまざまなスタイルのポートレート写真
ComfyUIでの使用
Z-Image-TurboはComfyUIでサポートされています。以下が必要です:
- ComfyUIを最新バージョンにアップデート
- 必要なモデルファイルをダウンロード
- ワークフロー(workflow)をインポートして使用開始
モデルファイル
以下のモデルファイルをダウンロードし、対応するディレクトリに配置する必要があります:
テキストエンコーダー(text_encoders)
拡散モデル(diffusion_models)
VAE
ファイル配置場所
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 text_encoders/
│ │ └── qwen_3_4b.safetensors
│ ├── 📂 diffusion_models/
│ │ └── z_image_turbo_bf16.safetensors
│ └── 📂 vae/
│ └── ae.safetensorsComfyUIワークフロー
以下のリンクから公式ワークフロー(workflow)テンプレートをダウンロードできます:
今後の計画
研究チームは、完全な非蒸留ベースモデルをリリースする予定で、これによりコミュニティ主導のファインチューニング、カスタムワークフロー、より広範なオープンソースエコシステムの開発が可能になります。
関連リンク
- HuggingFaceモデル:https://huggingface.co/Tongyi-MAI/Z-Image-Turbo
- Comfy-Orgモデル:https://huggingface.co/Comfy-Org/z_image_turbo
- ComfyUIブログ:https://blog.comfy.org/p/z-image-turbo-in-comfyui-realism
- 公式ウェブサイト:https://z-image.ai