テンセント・フンユアンワールド・ボイジャー：1枚の画像から3Dワールド探索ビデオを生成

Voyager

テンセント・フンユアンチームは最近、HunyuanWorld-Voyager技術をリリースしました。これは、単一画像とユーザー定義のカメラパスからワールド一貫性のある3Dポイントクラウドシーケンスを生成できる革新的なビデオ拡散フレームワークです。この技術は、3Dシーン生成とワールド探索に新しいソリューションを提供します。

技術的特徴

demo

ボイジャーの核となる利点は、ワールド一貫性のあるビデオ生成能力にあります。既存の手法と比較して、この技術には以下の特徴があります：

エンドツーエンドのシーン生成：ボイジャーはエンドツーエンドのシーン生成と再構成を実現し、追加の3D再構成プロセスなしにフレーム間の内在的一貫性を維持できます。

長距離ワールド探索：効率的なワールドキャッシングとポイントクラウド間引き技術を組み合わせ、自己回帰推論とスムーズなビデオサンプリングにより、コンテキスト認識の一貫性を維持しながら反復的なシーン拡張をサポートします。

スケーラブルなデータエンジン：カメラポーズ推定とメトリック深度予測を自動的に行うビデオ再構成パイプラインを提供し、手動3Dアノテーションなしに大規模で多様なトレーニングデータのキュレーションをサポートします。

技術アーキテクチャ

ボイジャーは3つの重要なコンポーネントを統合しています：

ワールド一貫性のあるビデオ拡散：既存のワールド観測を条件として、整列されたRGBと深度ビデオシーケンスを共同生成する統一アーキテクチャで、グローバル一貫性を確保
長距離ワールド探索：ポイントクラウド間引きと自己回帰推論を含む効率的なワールドキャッシングメカニズムで、反復シーン拡張のためのスムーズなビデオサンプリングをサポート
スケーラブルなデータエンジン：自動化されたカメラポーズ推定とメトリック深度予測のためのビデオ再構成パイプラインで、大規模トレーニングデータのキュレーションをサポート

アプリケーションシナリオ

この技術は複数の分野で広範な応用見込みがあります：

3Dワールド生成：1枚の画像から探索可能な3Dシーンを作成
ビデオゲーム開発：ゲームシーンと仮想ワールドを迅速に生成
映画制作：映画とアニメーションのための3Dシーンコンテンツを提供
ロボットシミュレーション：ロボットトレーニングのための仮想環境を提供
バーチャルリアリティ：没入型VR体験コンテンツを作成

パフォーマンス

WorldScoreベンチマークテストにおいて、ボイジャーは複数の評価次元で優れたパフォーマンスを発揮しました：

カメラ制御：85.95点
コンテンツ整列：68.92点
3D一貫性：81.56点
主観的品質：71.09点

全体平均スコアは77.62点に達し、比較手法中で1位となりました。

技術的利点

従来の3D生成手法と比較して、ボイジャーには以下の利点があります：

視覚的幻覚の回避：空間事前情報としての深度情報により、RGB条件のみに依存することで発生する可能性のある視覚的幻覚問題を回避

直接3D再構成：整列されたRGBと深度シーケンスを同時に生成し、追加のモーションからの構造やマルチビュー立体マッチングステップなしに直接3Dシーン再構成をサポート

無限ワールド拡張：任意の長さのカメラ軌道をサポートし、元の空間配置を維持しながら無限ワールド拡張を実行可能

OpenMOSS、MOVA をリリース - オープンソース音声・動画同期生成モデル