LTXビデオワークフロー ステップバイステップガイド
LTXビデオモデルの紹介
LTXビデオは、わずか2Bパラメータの革新的なDiTアーキテクチャのビデオ生成モデルで、以下の特徴があります:
- リアルタイム生成:リアルタイム再生よりも速くビデオを生成可能
- 高品質出力:768x512の解像度と24FPSで滑らかなビデオ出力
- 複数の生成モード:テキストからビデオ、画像からビデオ、ビデオからビデオへの変換をサポート
セットアップ要件
システム要件
- Python 3.10.5以上
- CUDA 12.2以上
- PyTorch >= 2.1.2
ComfyUI環境
-
ComfyUIの更新 まず、ComfyUIが最新バージョンに更新されていることを確認してください。ComfyUIの更新方法がわからない場合は、ComfyUIの更新方法を参照してください。
-
ComfyUI-LTXVideoカスタムノードのインストール インストール方法は2つあります:
方法1: ComfyUIマネージャーを使用(推奨)
- ComfyUIマネージャーを開く
- “LTXVideo”を検索
- インストールをクリック
方法2: 手動インストール
- ComfyUIの
custom_nodes
ディレクトリに移動 - リポジトリをクローン:
git clone https://github.com/Lightricks/ComfyUI-LTXVideo
- 依存関係をインストールする:
pip install -r requirements.txt
プラグインのインストール方法がわからない場合は、ComfyUIプラグインインストールガイドを参照してください。
必要なモデルのダウンロード
以下のモデルファイルをダウンロードする必要があります:
モデル名 | ファイル名 | インストールパス | ダウンロードリンク |
---|---|---|---|
LTX Video Model | ltx-video-2b-v0.9.safetensors | models/checkpoints | Hugging Face |
PixArt Text Encoder | model-00001-of-00002.safetensors | models/text_encoders/PixArt-XL-2-1024-MS/text_encoder | Hugging Face |
T5 Text Encoder | t5xxl_fp16.safetensors | models/text_encoders | Hugging Face |
注意:
- PixArtテキストエンコーダーは、text_encoderフォルダの内容全体をダウンロードする必要があります
- T5テキストエンコーダーファイルは大きいです(約9.79GB)、ダウンロードマネージャーの使用を推奨します
ワークフローファイル
テキストからビデオへのワークフロー
画像からビデオへのワークフロー
ビデオからビデオへのワークフロー
LTXビデオの使用制限
解像度とフレームレート
- 解像度は32の倍数である必要があります
- フレームレートは8の倍数+1である必要があります(例:65フレーム、257フレームなど)
- 推奨解像度は720x1280を超えないようにしてください
- 推奨フレーム数は257フレームを超えないようにしてください
プロンプトガイドライン
- 英語である必要があります
- プロンプトが詳細であるほど良いです
- シーン、アクション、詳細の完全な説明を含めることを推奨します
ワークフロー使用チュートリアル
基本ノードの説明
すべてのワークフローには以下の基本ノードが含まれています:
- モデル読み込みノード
LTXVLoader
: メインのLTXビデオモデルを読み込むltx-video-2b-v0.9.safetensors
ファイルを選択
LTXVCLIPModelLoader
: テキストエンコーダーを読み込むPixArt-XL-2-1024-MS/text_encoder/model-00001-of-00002.safetensors
ファイルを選択
LTXVModelConfigurator
: モデルパラメータを設定- 解像度、フレーム数、FPSなどの基本パラメータを設定
- オプションでコンディショニング入力を有効にする
- プロンプト処理ノード
CLIPTextEncode (Positive)
: ポジティブプロンプトのエンコード- PixArtエンコーダーを使用してポジティブプロンプトを処理
CLIPTextEncode (Negative)
: ネガティブプロンプトのエンコード- PixArtエンコーダーを使用してネガティブプロンプトを処理
CFGGuider
: プロンプトガイダンスの強度を制御- 推奨値範囲:2-7
- 値が大きいほど、生成されるコンテンツがプロンプトの説明に近くなります
- サンプリング制御ノード
KSamplerSelect
: サンプラーを選択- Eulerサンプラーの使用を推奨
BasicScheduler
: サンプリングステップ数とスケジューラーを設定- ステップ範囲:10-25
- スケジューラータイプ:normal
RandomNoise
: ランダムノイズを生成- 再現可能な結果のために固定シードを設定できます
SamplerCustomAdvanced
: サンプリングプロセスを実行- 最終生成のためにすべてのサンプリング関連パラメータを統合
- 出力ノード
VAEDecode
: 生成されたフレームをデコード- LTXビデオの内蔵VAEデコーダーを使用
VHS_VideoCombine
: 最終ビデオを結合- 出力ビデオのフレームレート、フォーマット、エンコーディングパラメータを設定
- 生成されたビデオのプレビューをサポート
LTXビデオ生成モードチュートリアル
テキストからビデオ
- 基本パラメータを設定
LTXVModelConfigurator
で:
- 解像度:768x512
- フレーム数:65(約2.5秒)
- FPS:25
- プロンプトを書く
- ポジティブプロンプトはできるだけ詳細に、シーン、アクション、詳細を説明する
- ネガティブプロンプトには次のようなものを含めることを推奨:“worst quality, inconsistent motion, blurry, jittery, distorted, watermarks”
- サンプリングパラメータを調整
- ステップ:推奨20ステップ
- CFG:推奨4-7
- サンプラー:Euler
- スケジューラー:Normal
画像からビデオ
基本設定に加えて、以下も必要です:
- 参照画像を準備
LoadImage
ノードを使用して参照画像を読み込む- 画像は理想的にはターゲット解像度比に一致するべきです
- 変換パラメータを調整
- 一貫性を保つためにCFG値を下げる(推奨3-5)
- サンプリングステップを適切に減らす(15-20)
ビデオからビデオ
- ソースビデオを読み込む
VHS_LoadVideo
ノードを使用:
- 適切なフレームレートを設定
- 解像度を調整するかどうかを選択
- パラメータの調整
- CFGを低く設定(2-4)
- サンプリングステップを減らす(10-15)
- 必要に応じて
sigma_shift
パラメータを調整
LTXビデオ最適化ガイド
パラメータの最適化
-
プロンプトの最適化
- 詳細で具体的な説明を使用
- アクションやシーンの遷移の説明を含める
- 映画撮影に関連する語彙を追加
-
パフォーマンスの最適化
- 速度を上げるために解像度を適切に下げる
- テストのためにフレーム数を減らす
- サンプリングステップを減らす
-
品質の最適化
- 画像が揺れる場合:CFG値を下げる
- 詳細が不足している場合:サンプリングステップを増やす
- 不自然な遷移がある場合:プロンプトの説明を最適化
LTXビデオの高度な応用ヒント
長いビデオの制作
- 複数のセグメントを個別に生成
- プロンプトを通じてスタイルの一貫性を保つ
- ポストプロダクションでビデオ編集ツールを使用して結合
スタイルのコントロール
- プロンプトに特定の芸術スタイルの説明を含める
- 参照画像を使用してスタイルをガイド
- CFG値を調整してスタイルの強度を調整
アクションのコントロール
- プロンプトにアクションプロセスを詳細に記述
- キーフレームを参照として使用
- 望ましい効果のためにフレームレートを適切に調整
LTXビデオの例とテンプレート
シーンの例
- シンプルなシーン遷移
ポジティブプロンプト: “A serene lake at sunrise, gentle ripples on the water surface, morning mist slowly rising, birds flying across the golden sky” サンプリングステップ: 20 CFG: 4
- 複雑なアクションシーケンス ポジティブプロンプト: “A professional dancer performing a graceful contemporary dance sequence, flowing movements, dynamic spins and leaps, soft lighting, studio setting” サンプリングステップ: 25 CFG: 5
好みのパラメータの組み合わせを保存して、将来の使用に備えてください。継続的な実験と調整を通じて、LTXビデオの使用方法を徐々に習得していきます。
LTXビデオプロンプトテンプレート
The turquoise waves crash against the dark, jagged rocks of the shore, sending white foam spraying into the air. The scene is dominated by the stark contrast between the bright blue water and the dark, almost black rocks. The water is a clear, turquoise color, and the waves are capped with white foam. The rocks are dark and jagged, and they are covered in patches of green moss. The shore is lined with lush green vegetation, including trees and bushes. In the background, there are rolling hills covered in dense forest. The sky is cloudy, and the light is dim.