Wan2.1 ComfyUI ワークフロー
アリババが2025年2月にオープンソース化したWan2.1は、現在の動画生成分野における標準的なモデルです。Apache 2.0ライセンスで提供され、14B(140億パラメータ)と1.3B(13億パラメータ)の2つのバージョンがあり、テキストから動画(T2V)、画像から動画(I2V)など多くのタスクをカバーしています。 このモデルは既存のオープンソースモデルを性能面で上回るだけでなく、より重要なのは軽量版が8GBのVRAMだけで実行できるため、使用のハードルが大幅に下がったことです。
現在、すべてのモデルはHugging FaceとModelScopeプラットフォームでダウンロード可能です:
- T2V-14B:Hugging Face | ModelScope
- I2V-14B-720P:Hugging Face | ModelScope
- T2V-1.3B:Hugging Face | ModelScope
この記事では、以下のWan2.1関連ワークフローの完成方法を案内します:
- Wan2.1の関連モデルのインストール
- Wan2.1画像から動画へのワークフロー
- Wan2.1テキストから動画へのワークフロー
また、現在コミュニティの作者によってGGUFと量子化バージョンが作成されています
- GGUF: https://huggingface.co/city96/Wan2.1-T2V-14B-gguf/tree/main
- 量子化バージョン: https://huggingface.co/Kijai/WanVideo_comfy/tree/main
通義 Wan2.1 ComfyUI 公式ワークフロー例
以下のワークフローはComfyUI公式ブログからのものです。現在、ComfyUIはWan2.1をネイティブにサポートしています
1. Wan2.1関連インストール
- ComfyUIを最新バージョンに更新する
ComfyUIバージョンを最新バージョンにアップグレードしてください。ComfyUIのアップグレード方法のガイドを参照してアップグレードを完了してください。
- Diffusion modelsモデルのインストール
Comfyのrepackagedから必要なワークフロータイプに応じてモデルバージョンをダウンロードしてください
- i2vはimage to video つまり画像から動画へのモデル、t2vはtext to video つまりテキストから動画へのモデルです
- 14B、1.3Bは対応するパラメータ数で、数値が大きいほどハードウェア性能要件が高くなります
- bf16、fp16、fp8は異なる精度を表し、精度が高いほどハードウェア性能要件が高くなります。fp8は精度が最も低く、ハードウェア性能要件が最も低いですが、効果も相対的に劣ります
- 通常、ファイルサイズが大きいほど、デバイスのハードウェア要件も高くなります
ダウンロードしたモデルはComfyUI/models/diffusion_models
ディレクトリに保存してください
- text encodersモデルのインストール
umt5_xxl_fp8_e4m3fn_scaled.safetensorsをダウンロード
ダウンロードに応答がない場合は、このリンクにアクセスしてダウンロードしてください
ダウンロードしたモデルはComfyUI/models/text_encoders
ディレクトリに保存してください
- clip_visionモデルのインストール
clip_vision_h.safetensorsをダウンロード
ダウンロードに応答がない場合は、このリンクにアクセスしてダウンロードしてください
ダウンロードしたモデルはComfyUI/models/clip_vision
ディレクトリに保存してください
- Wan2.1 VAEモデルのインストール
wan_2.1_vae.safetensorsをダウンロード
ダウンロードに応答がない場合は、このリンクにアクセスしてダウンロードしてください
ダウンロードしたモデルはComfyUI/models/vae
ディレクトリに保存してください
2. Wan2.1画像から動画へのワークフロー
以下の2つのワークフローは基本的なノードは同じですが、使用するDiffusion Modelと対応する動画サイズが異なります。以下で提供されるワークフローファイルを使用するか、そのうちの1つを使用して、私のチュートリアルの指示に従ってパラメータを変更することができます
2.1 Wan2.1画像から動画へのワークフロー 14B 720P Workflow
ワークフローファイルのダウンロード
以下のボタンをクリックして対応するワークフローをダウンロードし、ComfyUIインターフェースにドラッグするか、メニューバーのWorkflows
-> Open(Ctrl+O)
を使用して読み込んでください
入力画像の例
この画像をダウンロードして入力として使用してください
Wan2.1画像から動画へ 720P ワークフローの説明
画像の番号を参照して、対応するノードとモデルが正しく読み込まれていることを確認し、モデルが正常に動作するようにしてください
- 前に提供した入力画像の例をアップロードしてください
[clip_vision_h.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/clip_vision/clip_vision_h.safetensors?download=true)
モデルが正常に読み込まれていることを確認してください[umt5_xxl_fp8_e4m3fn_scaled.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors?download=true)
モデルが正常に読み込まれていることを確認してください- 720Pモデルを使用し、正常に読み込まれていることを確認してください。ダウンロードしていない場合はここをクリックしてダウンロードしてください。以下の2つのうち1つを選択してください(デバイスの性能によります)
- wan2.1_i2v_720p_14B_bf16.safetensors
- wan2.1_i2v_720p_14B_fp8_e4m3fn.safetensors
[wan_2.1_vae.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/vae/wan_2.1_vae.safetensors?download=true)
モデルが正常に読み込まれていることを確認してくださいQueue
ボタンをクリックするか、ショートカットキーCtrl(cmd) + Enter
を使用して動画生成を実行してくださいwanImageToVideo
ノードのサイズが768x768であることに注意してください
2.2 Wan2.1画像から動画へのワークフロー 14B 480P Workflow
480Pワークフローは720Pワークフローと似ていますが、主な違いはLoadDiffusion Model
ノードが480Pモデルを読み込むことと、wanImageToVideo
ノードのサイズが512x512であることです
ワークフローファイルのダウンロード
以下のボタンをクリックして対応するワークフローをダウンロードし、ComfyUIインターフェースにドラッグするか、メニューバーのWorkflows
-> Open(Ctrl+O)
を使用して読み込んでください
入力画像の例
以下の画像をダウンロードして入力として使用してください
Wan2.1画像から動画へ 480P ワークフローの説明
Wan2.1画像から動画へ 480P ワークフローの説明
画像の番号を参照して、対応するノードとモデルが正しく読み込まれていることを確認し、モデルが正常に動作するようにしてください
- 前に提供した入力画像の例をアップロードしてください
[clip_vision_h.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/clip_vision/clip_vision_h.safetensors?download=true)
モデルが正常に読み込まれていることを確認してください[umt5_xxl_fp8_e4m3fn_scaled.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors?download=true)
モデルが正常に読み込まれていることを確認してください- 480Pモデルを使用し、正常に読み込まれていることを確認してください。ダウンロードしていない場合はここをクリックしてダウンロードしてください。以下の2つのうち1つを選択してください(デバイスの性能によります)
- wan2.1_i2v_480p_14B_bf16.safetensors
- wan2.1_i2v_480p_14B_fp8_e4m3fn.safetensors
[wan_2.1_vae.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/vae/wan_2.1_vae.safetensors?download=true)
モデルが正常に読み込まれていることを確認してくださいQueue
ボタンをクリックするか、ショートカットキーCtrl(cmd) + Enter
を使用して動画生成を実行してくださいwanImageToVideo
ノードのサイズが512x512であることに注意してください
3. Wan2.1テキストから動画へのワークフロー 1.3B 1080P Workflow
以下のボタンをクリックして対応するワークフローをダウンロードし、ComfyUIインターフェースにドラッグするか、メニューバーのWorkflows
-> Open(Ctrl+O)
を使用して読み込んでください
画像の番号を参照して、対応するノードとモデルが正しく読み込まれていることを確認し、モデルが正常に動作するようにしてください
[umt5_xxl_fp8_e4m3fn_scaled.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors?download=true)
モデルが正常に読み込まれていることを確認してください- t2vモデルを使用し、正常に読み込まれていることを確認してください。ダウンロードしていない場合はここをクリックしてダウンロードしてください。以下のいずれかを選択してください(デバイスの性能によります)
- wan2.1_t2v_1.3B_bf16.safetensors
- wan2.1_t2v_1.3B_fp16.safetensors
- wan2.1_t2v_14B_bf16.safetensors
- wan2.1_t2v_14B_fp8_e4m3fn.safetensors
[wan_2.1_vae.safetensors](https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/resolve/main/split_files/vae/wan_2.1_vae.safetensors?download=true)
モデルが正常に読み込まれていることを確認してくださいQueue
ボタンをクリックするか、ショートカットキーCtrl(cmd) + Enter
を使用して動画生成を実行してください
Wan2.1量子化バージョンワークフロー
このバージョンはKijaiによって提供され、プラグインと一緒に使用する必要があります 以下の2つのプラグインをインストールする必要があります:
Wan2.1量子化バージョン関連モデルのダウンロード
関連モデルはすべて:Kijai/WanVideo_comfyから入手できます
Text encodersモデル
デバイスに応じてfp8またはbf16バージョンを選択し、以下のファイルをダウンロードしてComfyUI/models/text_encoders
フォルダに保存してください
fp8バージョンはデバイス性能要件が低く、bf16バージョンはデバイス性能要件が高いです
Diffusion models
デバイスと必要なワークフローに応じて、対応するTransformerモデルファイルをComfyUI/models/diffusion_models
フォルダにダウンロードしてください
- Wan2_1-I2V-14B-480P_fp8_e4m3fn.safetensors
- Wan2_1-I2V-14B-720P_fp8_e4m3fn.safetensors
- Wan2_1-T2V-14B_fp8_e4m3fn.safetensors
- Wan2_1-T2V-1_3B_bf16.safetensors
- Wan2_1-T2V-1_3B_fp8_e4m3fn.safetensors
対応するモデルファイルのパラメータ説明: 1. モデルタイプ
- I2V: Image to Video、画像から動画へのモデル
- T2V: Text to Video、テキストから動画へのモデル
2. モデル規模
- 14B: 140億パラメータバージョン、効果が良いがハードウェア要件が高い
- 1_3B: 13億パラメータバージョン、ハードウェア要件が低いが効果は比較的シンプル
3. 解像度
- 480P: 512x512解像度の動画を生成
- 720P: 768x768解像度の動画を生成
4. 精度フォーマット
- bf16: Brain Floating Point 16、精度が高く、比較的新しいGPUが必要
- fp8: Floating Point 8、精度が低く、ハードウェア要件が低い
- fp16: Floating Point 16、中程度の精度、ほとんどのGPUに適している
- e4m3fn: 8ビット浮動小数点形式の一種、低精度計算用に最適化
VAEモデル
デバイスに応じてfp8またはbf16バージョンを選択し、以下のファイルをダウンロードしてComfyUI/models/vae
フォルダに保存してください
Wan2.1量子化バージョンワークフロー
Wan2.1量子化バージョンテキストから動画へのワークフロー
以下のボタンをクリックして対応するワークフローをダウンロードし、ComfyUIインターフェースにドラッグするか、メニューバーのWorkflows
-> Open(Ctrl+O)
を使用して読み込んでください
ワークフローの説明
画像の番号を参照して、対応するノードとモデルが正しく読み込まれていることを確認し、モデルが正常に動作するようにしてください
[umt5-xxl-enc-bf16.safetensors](https://huggingface.co/Kijai/WanVideo_comfy/blob/main/umt5-xxl-enc-bf16.safetensors)
モデルが正常に読み込まれていることを確認してください- t2vモデルを使用し、正常に読み込まれていることを確認してください。ダウンロードしていない場合はここをクリックしてダウンロードしてください。以下の2つのうち1つを選択してください(デバイスの性能によります)
Wan2_1_VAE_xxx.safetensors
モデルが正常に読み込まれていることを確認してくださいQueue
ボタンをクリックするか、ショートカットキーCtrl(cmd) + Enter
を使用して動画生成を実行してください
Wan2.1量子化バージョン画像から動画へ480Pワークフロー
CLIPモデルのダウンロード
- open-clip-xlm-roberta-large-vit-huge-14_fp16.safetensors
- open-clip-xlm-roberta-large-vit-huge-14_visual_fp32.safetensors
- open-clip-xlm-roberta-large-vit-huge-14_visual_fp32.safetensors
ワークフローのダウンロード
以下のボタンをクリックして対応するワークフローをダウンロードし、ComfyUIインターフェースにドラッグするか、メニューバーのWorkflows
-> Open(Ctrl+O)
を使用して読み込んでください
ワークフローの説明
画像の番号を参照して、対応するノードとモデルが正しく読み込まれていることを確認し、モデルが正常に動作するようにしてください
umt5-xxl-enc-bf16.safetensors
モデルが正常に読み込まれていることを確認してください。ダウンロードリンク:umt5-xxl-enc-bf16.safetensorsopen-clip-xlm-roberta-large-vit-huge-14_fp16.safetensors
モデルが正常に読み込まれていることを確認してください。ダウンロードリンク:open-clip-xlm-roberta-large-vit-huge-14_fp16.safetensorsWan2_1_VAE_bf16.safetensors
モデルが正常に読み込まれていることを確認してください。ダウンロードリンク:Wan2_1_VAE_bf16.safetensors- 動画を生成したい画像をアップロードしてください
Wan2_1-I2V-14B-480P_fp8_e4m3fn.safetensors
モデルが正常に読み込まれていることを確認してください。ダウンロードリンク:Wan2_1-I2V-14B-480P_fp8_e4m3fn.safetensors- プロンプト入力ボックスに生成したい動画の説明を入力してください
Queue
ボタンをクリックするか、ショートカットキーCtrl(cmd) + Enter
を使用して動画生成を実行してください
Wan2.1量子化バージョン動画から動画へのワークフロー
ワークフローのダウンロード
以下のボタンをクリックして対応するワークフローをダウンロードし、ComfyUIインターフェースにドラッグするか、メニューバーのWorkflows
-> Open(Ctrl+O)
を使用して読み込んでください
ワークフローの説明
画像の番号を参照して、対応するノードとモデルが正しく読み込まれていることを確認し、モデルが正常に動作するようにしてください
umt5-xxl-enc-bf16.safetensors
モデルが正常に読み込まれていることを確認してください。ダウンロードリンク:umt5-xxl-enc-bf16.safetensors- 変換したい元の動画をアップロードしてください
Wan2_1-T2V-1_3B_bf16.safetensors
モデルが正常に読み込まれていることを確認してください。ダウンロードリンク:Wan2_1-T2V-1_3B_bf16.safetensors- 生成したい動画の説明を入力してください
Wan2_1_VAE_bf16.safetensors
モデルが正常に読み込まれていることを確認してください。ダウンロードリンク:Wan2_1_VAE_bf16.safetensorsQueue
ボタンをクリックするか、ショートカットキーCtrl(cmd) + Enter
を使用して動画生成を実行してください
関連リソース
- Wan2.1モデルGitHubリポジトリ
- Wan2.1モデルオンラインデモプラットフォーム
- Wan2.1モデル技術ドキュメント
- Wan2.1モデル開発者コミュニティ
- Wan2.1モデルComfyUI Repackaged
- Wan2.1モデルComfyUIワークフロー例
- Wan2.1モデルggufモデルダウンロード
- Wan2.1モデル量子化バージョンダウンロード