HunyuanVideo テキストから動画生成ワークフローガイドと例
このチュートリアルでは、ComfyUIでテンセントのHunyuanVideoモデルを使用してテキストから動画を生成する方法を詳しく説明します。環境設定から始めて、プロセス全体を段階的に説明していきます。
1. ハードウェア要件
開始する前に、以下の最小システム要件を満たしていることを確認してください:
- GPU: NVIDIA GPU、CUDA対応
- 最小要件: 60GB VRAM (720p×1280p×129フレーム動画生成用)
- 推奨: 80GB VRAM (より良い生成品質のため)
- 最小動作要件: 45GB VRAM (544p×960p×129フレーム動画生成用)
- OS: Linux (公式テスト環境)
- CUDA バージョン: CUDA 11.8 または 12.0+ を推奨
ハードウェア要件の出典: https://huggingface.co/tencent/HunyuanVideo
1. ComfyUIの最新版インストールとアップデート
ComfyUIがまだインストールされていない場合は、以下のセクションを参照してインストールを完了してください:
ComfyUI インストールガイド ComfyUI アップデートガイド
‘EmptyHunyuanLatentVideo’ノードを使用する必要があるため、ComfyUIを最新版にアップデートして対応ノードを入手する必要があります。
2. モデルのダウンロードとインストール
HunyuanVideoには以下のモデルファイルが必要です:
2.1 メインモデルファイル
HunyuanVideo メインモデルダウンロードページから以下のファイルをダウンロードしてください:
ファイル名 | サイズ | 配置ディレクトリ |
---|---|---|
hunyuan_video_t2v_720p_bf16.safetensors | 約25.6GB | ComfyUI/models/diffusion_models |
2.2 テキストエンコーダーファイル
HunyuanVideo テキストエンコーダーダウンロードページから以下のファイルをダウンロードしてください:
ファイル名 | サイズ | 配置ディレクトリ |
---|---|---|
clip_l.safetensors | 約246MB | ComfyUI/models/text_encoders |
llava_llama3_fp8_scaled.safetensors | 約9.09GB | ComfyUI/models/text_encoders |
2.3 VAE モデルファイル
HunyuanVideo VAE ダウンロードページから以下のファイルをダウンロードしてください:
ファイル名 | サイズ | 配置ディレクトリ |
---|---|---|
hunyuan_video_vae_bf16.safetensors | 約493MB | ComfyUI/models/vae |
モデルディレクトリ構造参考
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └── hunyuan_video_t2v_720p_bf16.safetensors # メインモデルファイル
│ ├── text_encoders/
│ │ ├── clip_l.safetensors # CLIPテキストエンコーダー
│ │ └── llava_llama3_fp8_scaled.safetensors # LLaVAテキストエンコーダー
│ └── vae/
│ └── hunyuan_video_vae_bf16.safetensors # VAEモデルファイル
3. ワークフローファイルのダウンロード
ワークフローファイルの出典: HunyuanVideo ワークフローファイルダウンロード
基本的な動画生成ワークフロー
HunyuanVideoは以下の解像度設定をサポートしています:
解像度 | 9:16 比率 | 16:9 比率 | 4:3 比率 | 3:4 比率 | 1:1 比率 |
---|---|---|---|---|---|
540p | 544×960×129フレーム | 960×544×129フレーム | 624×832×129フレーム | 832×624×129フレーム | 720×720×129フレーム |
720p (推奨) | 720×1280×129フレーム | 1280×720×129フレーム | 1104×832×129フレーム | 832×1104×129フレーム | 960×960×129フレーム |
4. ワークフローノードの説明
4.1 モデルロードノード
-
UNETLoader
- 用途:メインモデルファイルの読み込み
- パラメータ:
- Model:
hunyuan_video_t2v_720p_bf16.safetensors
- Weight Type:
default
(VRAM不足の場合はfp8タイプを選択)
- Model:
-
DualCLIPLoader
- 用途:テキストエンコーダーモデルの読み込み
- パラメータ:
- CLIP 1:
clip_l.safetensors
- CLIP 2:
llava_llama3_fp8_scaled.safetensors
- Text Encoder:
hunyuan_video
- CLIP 1:
-
VAELoader
- 用途:VAEモデルの読み込み
- パラメータ:
- VAE Model:
hunyuan_video_vae_bf16.safetensors
- VAE Model:
4.2 動画生成の主要ノード
-
EmptyHunyuanLatentVideo
- 用途:動画の潜在空間の作成
- パラメータ:
- Width: 動画の幅(例:848)
- Height: 動画の高さ(例:480)
- Frame Count: フレーム数(例:73)
- Batch Size: バッチサイズ(デフォルト1)
-
CLIPTextEncode
- 用途:テキストプロンプトのエンコード
- パラメータ:
- Text: ポジティブプロンプト(生成したい内容の説明)
- 詳細な英語での説明を推奨
-
FluxGuidance
- 用途:生成ガイダンス強度の制御
- パラメータ:
- Guidance Scale: ガイダンス強度(デフォルト6.0)
- 値が大きいほどプロンプトに忠実になりますが、動画品質に影響する可能性があります
-
KSamplerSelect
- 用途:サンプラーの選択
- パラメータ:
- Sampler: サンプリング方法(デフォルト
euler
) - その他のオプション:
euler_ancestral
,dpm++_2m
など
- Sampler: サンプリング方法(デフォルト
-
BasicScheduler
- 用途:サンプリングスケジューラーの設定
- パラメータ:
- Scheduler: スケジューリング方式(デフォルト
simple
) - Steps: サンプリングステップ数(20-30推奨)
- Denoise: ノイズ除去強度(デフォルト1.0)
- Scheduler: スケジューリング方式(デフォルト
4.3 動画デコードと保存ノード
-
VAEDecodeTiled
- 用途:潜在空間の動画を実際の動画にデコード
- パラメータ:
- Tile Size: 256(VRAM不足の場合は小さくする)
- Overlap: 64(VRAM不足の場合は小さくする)
注意:VAEDecodeTiledはVAEDecodeよりVRAM効率が良いため優先して使用してください
-
SaveAnimatedWEBP
- 用途:生成された動画の保存
- パラメータ:
- Filename Prefix: ファイル名プレフィックス
- FPS: フレームレート(デフォルト24)
- Lossless: ロスレス(デフォルトfalse)
- Quality: 品質(0-100、デフォルト80)
- Filter Type: フィルタータイプ(デフォルト
default
)
5. パラメータ最適化のアドバイス
5.1 VRAM最適化
VRAM不足の問題が発生した場合:
- UNETLoaderでfp8ウェイトタイプを選択
- VAEDecodeTiledのtile_sizeとoverlapパラメータを減らす
- より低い解像度とフレーム数を使用
5.2 生成品質の最適化
-
プロンプトの最適化
[主体の説明], [動作の説明], [シーンの説明], [スタイルの説明], [品質要求]
例:
anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background
-
パラメータ調整
- サンプリングステップ数を増やすと品質が向上
- Guidance Scaleを適度に上げるとテキストとの関連性が強化
- 必要に応じてFPSと動画品質パラメータを調整
6. よくある問題
-
VRAM不足
- VRAM最適化セクションの提案を参照
- 他のVRAMを使用するプログラムを閉じる
- より低い動画解像度設定を使用
-
生成速度が遅い
- これは正常で、動画生成には時間がかかります
- サンプリングステップ数とフレーム数を適度に減らす
- より低い解像度を使用して速度を上げる
-
生成品質の問題
- プロンプトの説明を最適化
- サンプリングステップ数を増やす
- Guidance Scaleを調整
- 異なるサンプラーを試す