ByteDanceがSa2VAをリリース：初の統合型画像・動画理解モデル

2025/10/17

Wan2.2 ComfyUI ワークフロー完全使用ガイド、公式+コミュニティ版（Kijai、GGUF）ワークフロー全攻略

Wan2.2

チュートリアル概要

このチュートリアルでは、ComfyUIにおけるWan2.2ビデオ生成モデルの様々な実装方法と使用方法を全面的に紹介します。Wan2.2はアリババクラウドが発表した次世代マルチモーダル生成モデルで、革新的なMoE（Mixture of Experts）アーキテクチャを採用し、映画レベルの美学制御、大規模複雑動作生成、正確な意味遵守などの核心的特性を備えています。

本チュートリアルがカバーするバージョンと内容

完成済みバージョン：

✅ ComfyUI 公式ネイティブ版 - ComfyOrg公式が提供する完全ワークフロー
✅ Wan2.2 5B ハイブリッド版 - テキストtoビデオと画像toビデオをサポートする軽量モデル
✅ Wan2.2 14B テキストtoビデオ版 - 高品質なテキストtoビデオ生成
✅ Wan2.2 14B 画像toビデオ版 - 静止画像to動画ビデオ
✅ Wan2.2 14B 先頭末尾フレームビデオ生成 - 開始と終了フレームに基づくビデオ生成

準備中のバージョン：

🔄 Kijai WanVideoWrapper 版
🔄 GGUF 量子化版 - 低スペックデバイス向けの最適化版
🔄 Lightx2v 4steps LoRA - 高速生成最適化ソリューション

Wan2.2 ビデオ生成モデルについて

Wan2.2は革新的なMoE（Mixture of Experts）アーキテクチャを採用し、高ノイズ専門モデルと低ノイズ専門モデルで構成され、デノイズタイムステップに応じて専門モデルを分割することで、より高品質なビデオコンテンツを生成できます。

核心的優位性：

映画レベルの美学制御：プロフェッショナルなレンズ言語、光影、色彩、構図など多次元視覚制御をサポート
大規模複雑運動：各種複雑運動をスムーズに再現、運動制御性と自然度を強化
正確な意味遵守：複雑シーン理解、複数オブジェクト生成、クリエイティブ意図をより良く再現
高効率圧縮技術：5B版高圧縮比VAE、VRAM最適化、ハイブリッドトレーニングをサポート

Wan2.2シリーズモデルはApache2.0オープンソースライセンスに基づき、商業利用をサポートします。Apache2.0ライセンスでは、商用利用を含め、これらのモデルを自由に使用、変更、配布できます。元の著作権表示とライセンステキストを保持するだけでOKです。

Wan2.2 オープンソースモデルバージョン概要

モデルタイプ	モデル名	パラメータ数	主要機能	モデルリポジトリ
ハイブリッドモデル	Wan2.2-TI2V-5B	5B	テキスト生成ビデオと画像生成ビデオのハイブリッド版、単一モデルで2つの核心タスクニーズを満たす	🤗 Wan2.2-TI2V-5B
画像toビデオ	Wan2.2-I2V-A14B	14B	静止画像を動画ビデオに変換、内容一貫性とスムーズな動的プロセスを維持	🤗 Wan2.2-I2V-A14B
テキストtoビデオ	Wan2.2-T2V-A14B	14B	テキスト記述から高品質ビデオを生成、映画レベルの美学制御と正確な意味遵守を備える	🤗 Wan2.2-T2V-A14B

Wan2.2 プロンプトガイド - Wanが提供する詳細なプロンプト作成ガイド

ComfyUI 公式リソース

ComfyOrg 公式ライブ配信リプレイ

ComfyOrgのYouTubeでは、Wan2.2のComfyUIでの使用について詳細に解説しています：

ComfyUI Wan2.2 ライブ配信リプレイ

ComfyUI Wan2.2 深入

ComfyUI Wan2.2 深入 #2

Wan2.2 ComfyUI 公式ネイティブ版ワークフロー使用ガイド

バージョン説明

ComfyUI公式ネイティブ版はComfyOrgチームが提供し、🤗 Comfy-Org/Wan_2.2_ComfyUI_Repackagedで再パッケージされたモデルファイルを使用し、ComfyUIとの最適な互換性を確保します。

Wan2.2 template

1. Wan2.2 TI2V 5B ハイブリッド版ワークフロー

💡

Wan2.2 5B版はComfyUIネイティブオフローディング機能と組み合わせることで、8GB VRAMに適応しやすく、初心者ユーザーに最適です。

ワークフロー取得方法

ComfyUIを最新版に更新し、メニューのワークフロー -> テンプレートを閲覧 -> ビデオから”Wan2.2 5B video generation”を見つけてワークフローをロードしてください

JSON形式ワークフローをダウンロード

モデルファイルダウンロード

拡散モデル

wan2.2_ti2v_5B_fp16.safetensors

VAE

wan2.2_vae.safetensors

テキストエンコーダー

umt5_xxl_fp8_e4m3fn_scaled.safetensors

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   └───wan2.2_ti2v_5B_fp16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan2.2_vae.safetensors

操作手順詳細

手順図

Load Diffusion Modelノードがwan2.2_ti2v_5B_fp16.safetensorsモデルをロードしていることを確認
Load CLIPノードがumt5_xxl_fp8_e4m3fn_scaled.safetensorsモデルをロードしていることを確認
Load VAEノードがwan2.2_vae.safetensorsモデルをロードしていることを確認
（任意）画像toビデオを行う場合、ショートカットキーCtrl+BでLoad imageノードを有効化して画像をアップロード
（任意）Wan22ImageToVideoLatentでサイズ設定調整、およびビデオ総フレーム数length調整が可能
（任意）プロンプト（ポジティブおよびネガティブ）を変更する場合、番号5のCLIP Text Encoderノードで変更
Runボタンをクリック、またはショートカットキーCtrl(cmd) + Enter(リターン)でビデオ生成を実行

2. Wan2.2 14B T2V テキストtoビデオワークフロー

ワークフロー取得方法

ComfyUIを最新版に更新し、メニューのワークフロー -> テンプレートを閲覧 -> ビデオから”Wan2.2 14B T2V”を見つけてください

またはComfyUIを最新版に更新後、以下のワークフローをダウンロードしてComfyUIにドラッグしてワークフローをロード

モデルファイルダウンロード

拡散モデル

VAE

wan_2.1_vae.safetensors

テキストエンコーダー

umt5_xxl_fp8_e4m3fn_scaled.safetensors

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
│   │   └─── wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors

操作手順詳細

手順図

最初のLoad Diffusion Modelノードがwan2.2_t2v_high_noise_14B_fp8_scaled.safetensorsモデルをロードしていることを確認
2番目のLoad Diffusion Modelノードがwan2.2_t2v_low_noise_14B_fp8_scaled.safetensorsモデルをロードしていることを確認
Load CLIPノードがumt5_xxl_fp8_e4m3fn_scaled.safetensorsモデルをロードしていることを確認
Load VAEノードがwan_2.1_vae.safetensorsモデルをロードしていることを確認
（任意）EmptyHunyuanLatentVideoでサイズ設定調整、およびビデオ総フレーム数length調整が可能
プロンプト（ポジティブおよびネガティブ）を変更する場合、番号6のCLIP Text Encoderノードで変更
Runボタンをクリック、またはショートカットキーCtrl(cmd) + Enter(リターン)でビデオ生成を実行

3. Wan2.2 14B I2V 画像toビデオワークフロー

ワークフロー取得方法

ComfyUIを最新版に更新し、メニューのワークフロー -> テンプレートを閲覧 -> ビデオから”Wan2.2 14B I2V”を見つけてワークフローをロード

またはComfyUIを最新版に更新後、以下のワークフローをダウンロードしてComfyUIにドラッグしてワークフローをロード

以下の画像を入力として使用できます入力画像

モデルファイルダウンロード

拡散モデル

VAE

wan_2.1_vae.safetensors

テキストエンコーダー

umt5_xxl_fp8_e4m3fn_scaled.safetensors

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── wan2.2_i2v_low_noise_14B_fp16.safetensors
│   │   └─── wan2.2_i2v_high_noise_14B_fp16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors

操作手順詳細

手順図

最初のLoad Diffusion Modelノードがwan2.2_t2v_high_noise_14B_fp8_scaled.safetensorsモデルをロードしていることを確認
2番目のLoad Diffusion Modelノードがwan2.2_t2v_low_noise_14B_fp8_scaled.safetensorsモデルをロードしていることを確認
Load CLIPノードがumt5_xxl_fp8_e4m3fn_scaled.safetensorsモデルをロードしていることを確認
Load VAEノードがwan_2.1_vae.safetensorsモデルをロードしていることを確認
Load Imageノードで開始フレームとして画像をアップロード
プロンプト（ポジティブおよびネガティブ）を変更する場合、番号6のCLIP Text Encoderノードで変更
（任意）EmptyHunyuanLatentVideoでサイズ設定調整、およびビデオ総フレーム数length調整が可能
Runボタンをクリック、またはショートカットキーCtrl(cmd) + Enter(リターン)でビデオ生成を実行

4. Wan2.2 14B FLF2V 先頭末尾フレームビデオ生成ワークフロー

先頭末尾フレームワークフローはI2V部分と完全に同じモデル位置を使用

ワークフローおよび素材取得

以下のビデオまたはJSON形式ワークフローをダウンロードしてComfyUIで開いてください

以下の素材を入力としてダウンロード

入力素材

操作手順詳細

手順図

最初のLoad Imageノードで開始フレームとして画像をアップロード
2番目のLoad Imageノードで開始フレームとして画像をアップロード
WanFirstLastFrameToVideoでサイズ設定を変更
- ワークフローは低VRAMユーザーがリソースを過剰に消費しないように、比較的小さなサイズをデフォルト設定
- 十分なVRAMがある場合、720P程度のサイズを試すことができます
先頭末尾フレームに応じた適切なプロンプトを作成
Runボタンをクリック、またはショートカットキーCtrl(cmd) + Enter(リターン)でビデオ生成を実行

Wan2.2 Kijai WanVideoWrapper ComfyUI ワークフロー

⚠️

この内容は準備中で、近日中に更新予定です。

このチュートリアルの一部では、Kijai/ComfyUI-WanVideoWrapperの便利な方法を紹介します。

関連モデルリポジトリ：https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled

Wan2.2 GGUF 量子化版 ComfyUI ワークフロー

⚠️

この内容は準備中で、近日中に更新予定です。

GGUF版はVRAMが限られたユーザー向けで、以下のリソースを提供：

関連カスタムノード： City96/ComfyUI-GGUF

Lightx2v 4steps LoRA 使用説明

⚠️

この内容は準備中で、近日中に更新予定です。

Lightx2vは高速生成最適化ソリューションを提供：

Wan2.2-T2V-A14B-4steps-lora-rank64-V1