崑崙万維がSkyReels-V2無限長映画生成モデルをリリース
2025/04/21
崑崙万維がSkyReels-V2無限長映画生成モデルをリリース
4月21日、崑崙万維のSkyReelsチームは、拡散強制(Diffusion Forcing)フレームワークを使用した世界初の無限長映画生成モデルSkyReels-V2を正式にリリースし、オープンソース化しました。このモデルはマルチモーダル大規模言語モデル(MLLM)、多段階事前学習、強化学習、拡散強制フレームワークを組み合わせて協調最適化を実現し、30秒、40秒、さらにはそれ以上の高品質な動画を生成することができます。
🎥 デモンストレーション
上記のデモはSkyReels-V2拡散強制モデルを使用して生成された30秒の動画を示しています。
技術革新
SkyReels-V2は以下のいくつかの技術革新により高品質な動画生成を実現しています:
1. 映画級ビデオ理解モデル:SkyCaptioner-V1
チームはマルチモーダルLLMの一般的な説明とサブ専門家モデルの詳細なショット言語を組み合わせた構造化されたビデオ表現方法を設計しました。この方法は、ビデオ内の被写体タイプ、外観、表情、動作、位置などを識別します。
SkyCaptioner-V1は効率的にビデオデータを理解し、元の構造情報に沿った多様な説明を生成します。一般的なビデオコンテンツを理解するだけでなく、映画シーンのプロフェッショナルな撮影言語もキャプチャし、生成されたビデオのプロンプト遵守性を大幅に向上させます。このモデルは現在オープンソース化され、直接使用可能です。
2. モーション優先最適化
人間のアノテーションと合成歪みデータを使用した強化学習トレーニングにより、チームは既存のビデオ生成モデルのダイナミック歪みや非現実的なモーションの問題に対処しました。彼らは優先比較データペアを効率的に生成する半自動データ収集パイプラインを設計しました。
このアプローチにより、SkyReels-V2はモーションダイナミクスにおいて優れた性能を発揮し、高品質なモーションの要求を満たす流動的でリアルなビデオコンテンツを生成することができます。
3. 効率的な拡散強制フレームワーク
長時間ビデオ生成能力を実現するために、チームは拡散強制ポストトレーニング方法を提案しました。事前学習済みの拡散モデルを微調整して拡散強制モデルに変換することで、トレーニングコストを削減するだけでなく、生成効率も大幅に向上させました。
チームは非減少ノイズタイムスケジュールを採用し、連続フレームのノイズ除去スケジュールの検索空間をO(1e48)からO(1e32)に削減し、長時間ビデオの効率的な生成を可能にしました。
4. 進行的解像度事前学習と多段階事後学習最適化
プロフェッショナルな映画生成モデルを開発するため、チームの多段階品質保証フレームワークは一般的なデータセット、自己収集メディア、アートリソースライブラリという3つの主要ソースからのデータを統合しました。
このデータ基盤の上に、チームはまず進行的解像度事前学習により基本ビデオ生成モデルを確立し、その後4段階の後続トレーニング強化を行いました:初期概念バランス教師付き微調整、モーション特化強化学習トレーニング、拡散強制フレームワーク、高品質SFTです。
パフォーマンス
SkyReels-V2は複数の評価で優れたパフォーマンスを示しています:
-
SkyReels-Bench T2V多次元人間評価では、SkyReels-V2は指示遵守性(3.15)と一貫性(3.35)で最高水準を達成し、同時にビデオ品質(3.34)とモーション品質(2.74)でもトップティアのパフォーマンスを維持しています。
-
VBench1.0自動評価では、SkyReels-V2はHunyuanVideo-13BやWan2.1-14Bを含むすべての比較モデルを上回り、最高の総合スコア(83.9%)と品質スコア(84.7%)を獲得しました。
アプリケーションシナリオ
SkyReels-V2は複数の実用的なアプリケーションシナリオに強力なサポートを提供します:
-
ストーリー生成:スライディングウィンドウ方式と安定化技術を使用して理論上無限の長さのビデオを生成し、一貫した物語を持つ長いショットを作成できます。
-
画像からビデオへの合成:画像からビデオへの生成のための2つの方法を提供し、すべての品質次元でオープンソースモデルを上回り、クローズドソースモデルに匹敵します。
-
カメラディレクター機能:特別に選ばれたサンプルと微調整実験を通じて、特にカメラの動きの流動性と多様性において、写真効果を大幅に向上させます。
-
要素からビデオへの生成:SkyReels-V2基盤モデルをベースにしたSkyReels-A2ソリューションは、テキストプロンプトによって導かれる一貫したビデオに任意の視覚要素を組み合わせることができます。
オープンソースモデル
崑崙万維SkyReelsチームは、学術界と産業界での更なる研究とアプリケーションを促進するために、SkyCaptioner-V1とSkyReels-V2シリーズモデル(拡散強制、テキストからビデオ、画像からビデオ、カメラディレクター、要素からビデオへのモデルを含む)を様々なサイズ(1.3B、5B、14B)で完全にオープンソース化しました。