FramePack: 動画生成を画像生成と同じくらい効率的に

Lvmin ZhangとManeesh Agrawalaは最近、次フレーム予測モデルに新しいソリューションを提供する動画生成技術「FramePack」をリリースしました。FramePackは革新的な入力フレーム圧縮方法を使用して、動画生成の作業負荷を動画の長さに関係なく一定に保ち、ユーザーが一般的なハードウェアでも高品質で長時間の動画を生成できるようにします。

核心技術の特徴

FramePackの主な利点は、入力コンテキストを一定の長さに圧縮し、生成作業の負荷を動画の長さに依存しないようにする能力にあります。具体的な特徴は次のとおりです：

6GBのVRAMしかないノートパソコンのGPUでも、130億パラメータのモデルで多数のフレームを処理可能
画像拡散トレーニングで使用されるものと同様のバッチサイズでトレーニング可能
RTX 4090でフレームあたり1.5〜2.5秒の生成速度
タイムステップ蒸留技術が不要

動画生成の主要課題の解決

従来の動画生成は2つの主要な問題に直面しています：忘却（モデルが以前のコンテンツを覚えておくのに苦労する）とドリフト（時間の経過とともにエラーが蓄積され、視覚的品質が低下する）。FramePackはこれらの問題を2つの方法で解決します：

フレーム圧縮メカニズム：フレームの重要性に基づいて異なるコンテキスト長を割り当て、予測対象に最も近いフレームにより多くのリソースを提供
ドリフト防止サンプリング：時間の経過による品質低下を防ぐため、厳密な因果依存関係ではなく双方向コンテキストを使用

実用デモンストレーション

以下はFramePackが単一画像から動画を生成するデモンストレーションです：

例1：ダンス動作の生成

入力画像

生成された動画

例2：動的シーンの生成

入力画像

生成された動画

一般ユーザー向けの技術

FramePackの設計は優れた使いやすさを提供します：

低いハードウェア要件：RTX 30XX、40XX、50XXシリーズのNvidia GPUをサポートし、最低でも6GB VRAMのみが必要
長時間動画の生成：小型GPUでも最大60秒（30fps、1800フレーム）の動画を生成可能
リアルタイムフィードバック：フレームごとに生成されるため、動画全体が完成する前に生成の進行状況を確認できる

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD

ComfyUIでQwen-Imageがネイティブ対応

FramePack: 動画生成を画像生成と同じくらい効率的に

核心技術の特徴

動画生成の主要課題の解決

実用デモンストレーション

一般ユーザー向けの技術

関連リンク