Skip to content
Follow me on X
ComfyUI Wiki
ニュースアリババ通義ラボがZ-Image-Turboを発表 - 6Bパラメータの効率的な画像生成モデル

アリババ通義ラボがZ-Image-Turboを発表 - 6Bパラメータの効率的な画像生成モデル

2025年11月27日、アリババ通義ラボ(Tongyi Lab)は次世代の高効率画像生成モデル「Z-Image-Turbo」を正式に発表しました。わずか6Bパラメータでありながら、20B以上のパラメータを持つクローズドソースのフラッグシップモデルに匹敵する性能を実現し、特に高忠実度でフォトリアリスティックなポートレート生成に優れています。

主な特徴

効率的なパラメータアーキテクチャ

Z-Image-Turboは、スケーラブルなシングルストリームDiT(S3-DiT)アーキテクチャを採用し、テキスト、視覚的意味トークン、画像VAEトークンをシーケンスレベルで統合入力ストリームとして連結することで、パラメータ効率を最大化しています。この設計により、モデルは高品質な出力を維持しながら、計算リソース要件を大幅に削減できます。

コンシューマー向けGPU対応

これはZ-Image-Turboの最も魅力的な特徴の一つです:

  • VRAM使用量を16GB以下に厳密に制御
  • RTX 4090で1024×1024解像度の画像をわずか2.3秒で生成
  • NVIDIA RTX Pro 6000 Blackwellで2K画像をわずか4.8秒で生成
  • わずか8ステップのサンプリングで高品質な画像を生成
  • RTX 3060 6GBバージョンでも動作可能

優れたテキストレンダリング

Z-Image-Turboは中国語と英語のテキストレンダリングに優れています:

  • 複雑な中国語・英語テキストを正確にレンダリング
  • 顔のリアリズムと視覚的美しさを維持
  • トップクラスのクローズドソースモデルに匹敵する結果を達成

フォトリアリスティックなポートレート

このモデルは以下の生成に特に優れています:

  • 高忠実度のキャラクターポートレート
  • 自然な肌のテクスチャと照明効果
  • シネマティックな照明と構図
  • さまざまなスタイルのポートレート写真

ComfyUIでの使用

Z-Image-TurboはComfyUIでサポートされています。以下が必要です:

  1. ComfyUIを最新バージョンにアップデート
  2. 必要なモデルファイルをダウンロード
  3. ワークフロー(workflow)をインポートして使用開始

モデルファイル

以下のモデルファイルをダウンロードし、対応するディレクトリに配置する必要があります:

テキストエンコーダー(text_encoders)

拡散モデル(diffusion_models)

VAE

ファイル配置場所

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── qwen_3_4b.safetensors
│   ├── 📂 diffusion_models/
│   │      └── z_image_turbo_bf16.safetensors
│   └── 📂 vae/
│          └── ae.safetensors

ComfyUIワークフロー

以下のリンクから公式ワークフロー(workflow)テンプレートをダウンロードできます:

今後の計画

研究チームは、完全な非蒸留ベースモデルをリリースする予定で、これによりコミュニティ主導のファインチューニング、カスタムワークフロー、より広範なオープンソースエコシステムの開発が可能になります。

関連リンク