Skip to content
ComfyUI Wiki の広告を削除するのを手伝う パトロンになる
チュートリアルComfyUI 上級チュートリアルHunyuanVideo テキストから動画生成ワークフローガイドと例

HunyuanVideo テキストから動画生成ワークフローガイドと例

このチュートリアルでは、ComfyUIでテンセントのHunyuanVideoモデルを使用してテキストから動画を生成する方法を詳しく説明します。環境設定から始めて、プロセス全体を段階的に説明していきます。

1. ハードウェア要件

開始する前に、以下の最小システム要件を満たしていることを確認してください:

  • GPU: NVIDIA GPU、CUDA対応
    • 最小要件: 60GB VRAM (720p×1280p×129フレーム動画生成用)
    • 推奨: 80GB VRAM (より良い生成品質のため)
    • 最小動作要件: 45GB VRAM (544p×960p×129フレーム動画生成用)
  • OS: Linux (公式テスト環境)
  • CUDA バージョン: CUDA 11.8 または 12.0+ を推奨

ハードウェア要件の出典: https://huggingface.co/tencent/HunyuanVideo

1. ComfyUIの最新版インストールとアップデート

ComfyUIがまだインストールされていない場合は、以下のセクションを参照してインストールを完了してください:

ComfyUI インストールガイド ComfyUI アップデートガイド

‘EmptyHunyuanLatentVideo’ノードを使用する必要があるため、ComfyUIを最新版にアップデートして対応ノードを入手する必要があります。

2. モデルのダウンロードとインストール

HunyuanVideoには以下のモデルファイルが必要です:

2.1 メインモデルファイル

HunyuanVideo メインモデルダウンロードページから以下のファイルをダウンロードしてください:

ファイル名サイズ配置ディレクトリ
hunyuan_video_t2v_720p_bf16.safetensors約25.6GBComfyUI/models/diffusion_models

2.2 テキストエンコーダーファイル

HunyuanVideo テキストエンコーダーダウンロードページから以下のファイルをダウンロードしてください:

ファイル名サイズ配置ディレクトリ
clip_l.safetensors約246MBComfyUI/models/text_encoders
llava_llama3_fp8_scaled.safetensors約9.09GBComfyUI/models/text_encoders

2.3 VAE モデルファイル

HunyuanVideo VAE ダウンロードページから以下のファイルをダウンロードしてください:

ファイル名サイズ配置ディレクトリ
hunyuan_video_vae_bf16.safetensors約493MBComfyUI/models/vae

モデルディレクトリ構造参考

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── hunyuan_video_t2v_720p_bf16.safetensors  # メインモデルファイル
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                       # CLIPテキストエンコーダー
│   │   └── llava_llama3_fp8_scaled.safetensors      # LLaVAテキストエンコーダー
│   └── vae/
│       └── hunyuan_video_vae_bf16.safetensors       # VAEモデルファイル

3. ワークフローファイルのダウンロード

Raw Json Format

ワークフローファイルの出典: HunyuanVideo ワークフローファイルダウンロード

基本的な動画生成ワークフロー

HunyuanVideoは以下の解像度設定をサポートしています:

解像度9:16 比率16:9 比率4:3 比率3:4 比率1:1 比率
540p544×960×129フレーム960×544×129フレーム624×832×129フレーム832×624×129フレーム720×720×129フレーム
720p (推奨)720×1280×129フレーム1280×720×129フレーム1104×832×129フレーム832×1104×129フレーム960×960×129フレーム

4. ワークフローノードの説明

4.1 モデルロードノード

  1. UNETLoader

    • 用途:メインモデルファイルの読み込み
    • パラメータ:
      • Model: hunyuan_video_t2v_720p_bf16.safetensors
      • Weight Type: default (VRAM不足の場合はfp8タイプを選択)
  2. DualCLIPLoader

    • 用途:テキストエンコーダーモデルの読み込み
    • パラメータ:
      • CLIP 1: clip_l.safetensors
      • CLIP 2: llava_llama3_fp8_scaled.safetensors
      • Text Encoder: hunyuan_video
  3. VAELoader

    • 用途:VAEモデルの読み込み
    • パラメータ:
      • VAE Model: hunyuan_video_vae_bf16.safetensors

4.2 動画生成の主要ノード

  1. EmptyHunyuanLatentVideo

    • 用途:動画の潜在空間の作成
    • パラメータ:
      • Width: 動画の幅(例:848)
      • Height: 動画の高さ(例:480)
      • Frame Count: フレーム数(例:73)
      • Batch Size: バッチサイズ(デフォルト1)
  2. CLIPTextEncode

    • 用途:テキストプロンプトのエンコード
    • パラメータ:
      • Text: ポジティブプロンプト(生成したい内容の説明)
      • 詳細な英語での説明を推奨
  3. FluxGuidance

    • 用途:生成ガイダンス強度の制御
    • パラメータ:
      • Guidance Scale: ガイダンス強度(デフォルト6.0)
      • 値が大きいほどプロンプトに忠実になりますが、動画品質に影響する可能性があります
  4. KSamplerSelect

    • 用途:サンプラーの選択
    • パラメータ:
      • Sampler: サンプリング方法(デフォルトeuler
      • その他のオプション:euler_ancestral, dpm++_2mなど
  5. BasicScheduler

    • 用途:サンプリングスケジューラーの設定
    • パラメータ:
      • Scheduler: スケジューリング方式(デフォルトsimple
      • Steps: サンプリングステップ数(20-30推奨)
      • Denoise: ノイズ除去強度(デフォルト1.0)

4.3 動画デコードと保存ノード

  1. VAEDecodeTiled

    • 用途:潜在空間の動画を実際の動画にデコード
    • パラメータ:
      • Tile Size: 256(VRAM不足の場合は小さくする)
      • Overlap: 64(VRAM不足の場合は小さくする)

    注意:VAEDecodeTiledはVAEDecodeよりVRAM効率が良いため優先して使用してください

  2. SaveAnimatedWEBP

    • 用途:生成された動画の保存
    • パラメータ:
      • Filename Prefix: ファイル名プレフィックス
      • FPS: フレームレート(デフォルト24)
      • Lossless: ロスレス(デフォルトfalse)
      • Quality: 品質(0-100、デフォルト80)
      • Filter Type: フィルタータイプ(デフォルトdefault

5. パラメータ最適化のアドバイス

5.1 VRAM最適化

VRAM不足の問題が発生した場合:

  1. UNETLoaderでfp8ウェイトタイプを選択
  2. VAEDecodeTiledのtile_sizeとoverlapパラメータを減らす
  3. より低い解像度とフレーム数を使用

5.2 生成品質の最適化

  1. プロンプトの最適化

    [主体の説明], [動作の説明], [シーンの説明], [スタイルの説明], [品質要求]

    例:

    anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background
  2. パラメータ調整

    • サンプリングステップ数を増やすと品質が向上
    • Guidance Scaleを適度に上げるとテキストとの関連性が強化
    • 必要に応じてFPSと動画品質パラメータを調整

6. よくある問題

  1. VRAM不足

    • VRAM最適化セクションの提案を参照
    • 他のVRAMを使用するプログラムを閉じる
    • より低い動画解像度設定を使用
  2. 生成速度が遅い

    • これは正常で、動画生成には時間がかかります
    • サンプリングステップ数とフレーム数を適度に減らす
    • より低い解像度を使用して速度を上げる
  3. 生成品質の問題

    • プロンプトの説明を最適化
    • サンプリングステップ数を増やす
    • Guidance Scaleを調整
    • 異なるサンプラーを試す

参考リンク