SkyReels-V2発表：無限長の動画生成に対応するオープンソースモデル

SkyReels Logo

SkyworkAIチームは最近、新しい動画生成モデルSkyReels-V2をリリースしました。これは理論上無限の長さの映画品質の動画を生成できる画期的なオープンソースプロジェクトです。このモデルは革新的な「拡散強制」(Diffusion Forcing)フレームワークを採用し、テキストから動画(T2V)と画像から動画(I2V)の両方の生成方法をサポートしています。

主な特徴

SkyReels-V2は動画生成分野に複数のイノベーションをもたらします：

無限長の動画生成：拡散強制技術により、理論上無制限の長さの動画を生成可能
マルチモーダル入力サポート：テキストから動画と画像から動画の両機能をサポート
高品質な視覚表現：人間による評価では、Kling-1.6やRunway Gen-4などのクローズドソース商用モデルに近い視覚性能を実現
完全オープンソースで商用利用可能：コードとモデルの重みの両方がオープンソース化され、商用プロジェクトでも利用可能
動画キャプションモデル：動画理解に特化したモデルSkyCaptioner-V1も同時に公開

モデルシリーズ

SkyReels-V2は異なるサイズと解像度の複数のモデルバリエーションを提供します：

拡散強制(DF)モデル：無限長の動画生成のために特別に設計され、1.3B-540Pおよび14B-720Pバージョンが利用可能
テキストから動画(T2V)モデル：テキストプロンプトから高品質な動画を生成することに焦点
画像から動画(I2V)モデル：入力画像から一貫性のある動画シーケンスを生成可能

技術的なハイライト

SkyReels-V2はいくつかの先進技術を採用しています：

動画キャプショナー(SkyCaptioner-V1)：Qwen2.5-VL-7B-Instructモデルからファインチューニングされ、動画コンテンツ理解において既存のモデルを大幅に上回る性能
強化学習：大きな変形を伴う動きや物理法則の遵守に関する問題に対処するため、モーション品質を最適化
拡散強制：各トークンに独立したノイズレベルを割り当てることを可能にする革新的なトレーニングとサンプリング戦略
高品質教師付き微調整：2段階の微調整プロセスによる視覚品質の向上

パフォーマンス

人間による評価では、SkyReels-V2は指示遵守、一貫性、視覚品質において優れた結果を達成しました：

テキストから動画のタスクでは、SkyReels-V2は平均スコア3.14を達成し、Wan2.1-14Bを含む他のオープンソースモデルを上回りました
画像から動画のタスクでは、SkyReels-V2-I2Vは平均スコア3.29を達成し、商用クローズドソースモデルのパフォーマンスに近づきました

ハードウェア要件

SkyReels-V2は比較的高いハードウェア要件があることに注意してください：

1.3Bモデルで540P動画を生成するには約14.7GBのVRAMが必要
14Bモデルで540P動画を生成するには約43.4GBのVRAMが必要
長い動画生成やより高解像度の場合は追加リソースが必要です

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD

ComfyUIがサブグラフ機能を正式リリース