OpenMOSS、MOVA をリリース - オープンソース音声・動画同期生成モデル

2026/01/29

アリババ通義ラボがZ-Image-Baseをリリース - 非蒸留版高品質画像生成モデル

2026年1月28日、アリババ通義ラボはZ-Image-Baseモデルを正式にリリースしました。これはZ-Imageシリーズの非蒸留版の生チェックポイントバージョンです。ComfyUIはリリース当日に完全なサポートを提供し、Day-0統合を実現しました。

モデルの位置づけ

Z-Image-Baseは、Z-Imageモデルファミリーの中核基盤です。速度を優先する蒸留版のZ-Image-Turboとは異なり、Baseバージョンはアーキテクチャの完全な生成能力を保持しています。最適な品質を得るには30〜50ステップのサンプリング(CFG 3-5)が必要で、生成時間は長くなりますが、より豊かな視覚的ディテールとより高い芸術的上限を生み出すことができます。

主な特徴

多様な美学表現

Z-Image-Baseは、卓越したフォトリアリスティックな品質を維持しながら、より広範な芸術スタイルをサポートします。蒸留版と比較して、基盤モデルは芸術的表現力とスタイルの多様性において明確な優位性があります。

ファインチューニングに適している

非蒸留の完全なモデルとして、Z-Image-Baseはコミュニティのファインチューニングと専門的な開発に理想的な基盤モデルです。開発者はこのモデルをベースにLoRAをトレーニングしたり、スタイル転送を行ったり、カスタマイズされた画像生成ソリューションを作成したりできます。

ネガティブプロンプトへの高い応答性

モデルはネガティブプロンプトに対して高い応答性を持ち、精密な生成制御を可能にします。ユーザーはネガティブプロンプトを通じて、望ましくない要素やスタイルを効果的に回避できます。

強化された多様性

蒸留版と比較して、Baseモデルはより高い生成多様性を持ち、より創造的で変化に富んだ結果を生み出すことができ、探索的な創作シナリオに適しています。

パフォーマンス

NVIDIA RTX Pro 6000 Blackwell GPUでは、1024×1024解像度の画像生成(30サンプリングステップ)にわずか13.3秒しかかかりません。

ComfyUIでの使用

ComfyUIはZ-Image-Baseのリリース当日に完全なサポートを提供しました。使用手順:

ComfyUIを更新: 最新バージョンのComfyUIを実行していることを確認してください
ワークフローテンプレートにアクセス:
- サイドバーのTemplatesをクリック
- Template libraryに移動
- 「Z-image」ワークフローを検索

公式ワークフロー

公式ワークフローテンプレートは以下からダウンロードできます:

Z-Image公式ワークフロー

モデルファイル

モデルファイルをダウンロードして対応するディレクトリに配置する必要があります:

テキストエンコーダー (text_encoders)

qwen_3_4b.safetensors

拡散モデル (diffusion_models)

z_image_base_bf16.safetensors

VAE

ae.safetensors

ファイルの配置

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 text_encoders/
│   │      └── qwen_3_4b.safetensors
│   ├── 📂 diffusion_models/
│   │      └── z_image_base_bf16.safetensors
│   └── 📂 vae/
│          └── ae.safetensors

推奨パラメータ

サンプリングステップ: 30-50ステップ
CFGスケール: 3-5
解像度: 1024×1024(推奨)

応用シナリオ

Z-Image-Baseは特に以下に適しています:

プロフェッショナル写真グレードのポートレート: 繊細な肌のテクスチャ、自然な照明効果
建築・インテリアデザイン: 高品質な空間レンダリング、素材表現
芸術創作: 多様なスタイル探索、創造的実験
商業ビジュアルデザイン: 商品写真、広告素材制作
モデルファインチューニング基盤: LoRAトレーニング、スタイルカスタマイズ

Z-Image-Turboとの比較

特徴	Z-Image-Base	Z-Image-Turbo
サンプリングステップ	30-50ステップ	8ステップ
生成速度	遅い	非常に速い
視覚的ディテール	より豊か	優秀
芸術的上限	より高い	高い
生成多様性	より強い	良好
ファインチューニング適性	優秀	普通
ネガティブプロンプト応答	高応答性	良好な応答性
使用ケース	プロフェッショナル創作、ファインチューニング開発	迅速なプロトタイピング、日常創作

Z-Imageシリーズエコシステム

Z-Imageシリーズは完全なエコシステムを形成しています:

Z-Image-Base: 非蒸留基盤モデル、最高品質と柔軟性
Z-Image-Turbo: 蒸留加速版、8ステップ高速生成
Z-Image-Edit: 画像編集専用版(近日公開)
ControlNet Union 2.1: 複数の制御条件をサポート(Canny、HED、Depth、Pose、MLSD)
TwinFlow加速版: 実験的なより高速なバージョン(開発中)