Step1X-Edit: オープンソースAI画像編集フレームワーク
2025/04/28
SkyReels-V2発表:無限長の動画生成に対応するオープンソースモデル
SkyworkAIチームは最近、新しい動画生成モデルSkyReels-V2をリリースしました。これは理論上無限の長さの映画品質の動画を生成できる画期的なオープンソースプロジェクトです。このモデルは革新的な「拡散強制」(Diffusion Forcing)フレームワークを採用し、テキストから動画(T2V)と画像から動画(I2V)の両方の生成方法をサポートしています。
主な特徴
SkyReels-V2は動画生成分野に複数のイノベーションをもたらします:
- 無限長の動画生成:拡散強制技術により、理論上無制限の長さの動画を生成可能
- マルチモーダル入力サポート:テキストから動画と画像から動画の両機能をサポート
- 高品質な視覚表現:人間による評価では、Kling-1.6やRunway Gen-4などのクローズドソース商用モデルに近い視覚性能を実現
- 完全オープンソースで商用利用可能:コードとモデルの重みの両方がオープンソース化され、商用プロジェクトでも利用可能
- 動画キャプションモデル:動画理解に特化したモデルSkyCaptioner-V1も同時に公開
モデルシリーズ
SkyReels-V2は異なるサイズと解像度の複数のモデルバリエーションを提供します:
- 拡散強制(DF)モデル:無限長の動画生成のために特別に設計され、1.3B-540Pおよび14B-720Pバージョンが利用可能
- テキストから動画(T2V)モデル:テキストプロンプトから高品質な動画を生成することに焦点
- 画像から動画(I2V)モデル:入力画像から一貫性のある動画シーケンスを生成可能
技術的なハイライト
SkyReels-V2はいくつかの先進技術を採用しています:
- 動画キャプショナー(SkyCaptioner-V1):Qwen2.5-VL-7B-Instructモデルからファインチューニングされ、動画コンテンツ理解において既存のモデルを大幅に上回る性能
- 強化学習:大きな変形を伴う動きや物理法則の遵守に関する問題に対処するため、モーション品質を最適化
- 拡散強制:各トークンに独立したノイズレベルを割り当てることを可能にする革新的なトレーニングとサンプリング戦略
- 高品質教師付き微調整:2段階の微調整プロセスによる視覚品質の向上
パフォーマンス
人間による評価では、SkyReels-V2は指示遵守、一貫性、視覚品質において優れた結果を達成しました:
- テキストから動画のタスクでは、SkyReels-V2は平均スコア3.14を達成し、Wan2.1-14Bを含む他のオープンソースモデルを上回りました
- 画像から動画のタスクでは、SkyReels-V2-I2Vは平均スコア3.29を達成し、商用クローズドソースモデルのパフォーマンスに近づきました
ハードウェア要件
SkyReels-V2は比較的高いハードウェア要件があることに注意してください:
- 1.3Bモデルで540P動画を生成するには約14.7GBのVRAMが必要
- 14Bモデルで540P動画を生成するには約43.4GBのVRAMが必要
- 長い動画生成やより高解像度の場合は追加リソースが必要です
関連リンク
SkyReels-V2のリリースは、特に長尺動画合成においてAI動画生成の分野で重要な進歩を示すものであり、クリエイターや開発者に新たな可能性を提供します。今後5Bシリーズモデルやカメラディレクターモデルの追加リリースが計画されており、この技術からさらなるイノベーションが期待できます。