KuaishouがCineMasterをリリース:動画版ControlNetが3D認識動画生成に革新をもたらす
**Kuaishou(快手)**は最近、CineMasterという画期的なテキスト→動画生成フレームワークを発表し、動画制作分野における重要な進展を示しました。このフレームワークは強力な3D認識機能を備え、ControlNetの動画版として称賛されており、クリエイターに前例のない精密な制御能力を提供し、動画内の位置、動きの軌道、3D空間のレイアウトを細かく制御することができます。
CineMasterの技術革新
CineMasterは革新的な2段階フレームワーク設計を採用しています:
CineMasterフレームワークの特徴
CineMasterフレームワークの核心的な特徴は、動画生成に対する高度な制御性にあります。ユーザーは完全に制御可能な動画コンテンツを制作できるだけでなく、動画から3D情報を抽出して二次創作や編集を行い、スタイル転送を実現することができます。これによりCineMasterは、3D空間内でオブジェクトを正確に配置し、カメラアングルを柔軟に調整できる、創造性豊かなツールとなっています。
オブジェクトとカメラモーションの精密制御
CineMasterは、複数の制御信号を通じて、動画内のオブジェクトの位置とカメラの動きを精密に制御することができます。これにより、ユーザーはダイナミックなシーンを生成し、複雑な3D要素を組み込むことができ、動画制作に前例のない創造の自由をもたらします。
CineMasterの2段階ワークフロー
CineMasterは2段階で動作します:
-
インタラクティブワークフロー:ユーザーはオブジェクトのバウンディングボックスを配置し、3D空間内でのカメラの動きを定義することで、直感的に制御信号を構築します。このステージは、直感的で使いやすい3D認識環境を提供します。
-
制御信号生成:第一段階で生成された制御信号(深度マップ、カメラ軌道、オブジェクトカテゴリラベルを含む)がテキスト→動画拡散モデルに入力され、ユーザーの要求に合った動画コンテンツの生成を導きます。
データセット注釈パイプライン
3Dボックスとカメラポーズの注釈データ不足を克服するため、Kuaishouは大規模な動画データから3Dバウンディングボックスとカメラ軌道を抽出する自動化されたデータ注釈パイプラインを構築しました。このパイプラインには以下のステップが含まれます:
- インスタンスセグメンテーション:動画の前景からインスタンスセグメンテーション結果を抽出。
- 深度推定:DepthAnything V2を使用して計量深度マップを生成。
- 3Dポイントクラウドとボックス計算:逆投影技術で各エンティティの3Dポイントクラウドを計算し、最小体積法で各エンティティの3Dバウンディングボックスを計算。
- エンティティトラッキングと3Dボックス調整:ポイントトラッキング技術でフレームごとの3Dバウンディングボックスを計算し、3Dシーン全体を深度マップに投影。
既存手法を超える性能
CineMasterは広範な定性的・定量的実験で優れた性能を示し、既存の手法を大きく上回りました。特に、移動オブジェクトと静止カメラ、静止オブジェクトと移動カメラ、および移動オブジェクトと移動カメラという3つのシナリオにおいて、CineMasterは卓越した制御能力を発揮し、ユーザーの要求に応じて様々な複雑なシーンを柔軟に生成することができます。
技術アーキテクチャと革新
CineMasterフレームワークは革新的にセマンティックレイアウトControlNetを採用しています。このアーキテクチャにはセマンティックインジェクターとDiTベースのControlNetが含まれています。セマンティックインジェクターは3D空間レイアウトとカテゴリラベルを融合し、必要な制御信号を提供します。DiTベースのControlNetはこれらの特徴をさらに処理し、モデルの表現能力を向上させます。さらに、カメラアダプターがカメラ軌道を注入し、オブジェクトの動きとカメラの動きの統合制御を実現します。
クリエイターに高度に柔軟で制御可能なテキスト→動画生成プラットフォームを提供し、前例のない3D創作の自由度をもたらしています。技術の継続的な改良と最適化により、CineMasterは今後の動画制作と編集の新しいトレンドをリードし、ユーザーにより豊かで洗練された創作体験を提供することが期待されています。
プロジェクトのオープンソース状況
- 現時点でオープンソースコンテンツはありません
CineMaster関連リンク
プロジェクトページ:https://cinemaster-dev.github.io/ 論文:https://arxiv.org/pdf/2502.08639