title: “テンセント・フンユアンワールド・ボイジャー:1枚の画像から3Dワールド探索ビデオを生成” description: “テンセント・フンユアンチームがボイジャー技術をリリース、単一画像とユーザー定義のカメラパスからワールド一貫性のある3Dポイントクラウドシーケンスビデオを生成可能に、無限ワールド探索と直接3D再構成をサポート” tag: tencent, video date: 2025-09-05
テンセント・フンユアンワールド・ボイジャー:1枚の画像から3Dワールド探索ビデオを生成
テンセント・フンユアンチームは最近、HunyuanWorld-Voyager技術をリリースしました。これは、単一画像とユーザー定義のカメラパスからワールド一貫性のある3Dポイントクラウドシーケンスを生成できる革新的なビデオ拡散フレームワークです。この技術は、3Dシーン生成とワールド探索に新しいソリューションを提供します。
技術的特徴
ボイジャーの核となる利点は、ワールド一貫性のあるビデオ生成能力にあります。既存の手法と比較して、この技術には以下の特徴があります:
エンドツーエンドのシーン生成:ボイジャーはエンドツーエンドのシーン生成と再構成を実現し、追加の3D再構成プロセスなしにフレーム間の内在的一貫性を維持できます。
長距離ワールド探索:効率的なワールドキャッシングとポイントクラウド間引き技術を組み合わせ、自己回帰推論とスムーズなビデオサンプリングにより、コンテキスト認識の一貫性を維持しながら反復的なシーン拡張をサポートします。
スケーラブルなデータエンジン:カメラポーズ推定とメトリック深度予測を自動的に行うビデオ再構成パイプラインを提供し、手動3Dアノテーションなしに大規模で多様なトレーニングデータのキュレーションをサポートします。
技術アーキテクチャ
ボイジャーは3つの重要なコンポーネントを統合しています:
-
ワールド一貫性のあるビデオ拡散:既存のワールド観測を条件として、整列されたRGBと深度ビデオシーケンスを共同生成する統一アーキテクチャで、グローバル一貫性を確保
-
長距離ワールド探索:ポイントクラウド間引きと自己回帰推論を含む効率的なワールドキャッシングメカニズムで、反復シーン拡張のためのスムーズなビデオサンプリングをサポート
-
スケーラブルなデータエンジン:自動化されたカメラポーズ推定とメトリック深度予測のためのビデオ再構成パイプラインで、大規模トレーニングデータのキュレーションをサポート
アプリケーションシナリオ
この技術は複数の分野で広範な応用見込みがあります:
- 3Dワールド生成:1枚の画像から探索可能な3Dシーンを作成
- ビデオゲーム開発:ゲームシーンと仮想ワールドを迅速に生成
- 映画制作:映画とアニメーションのための3Dシーンコンテンツを提供
- ロボットシミュレーション:ロボットトレーニングのための仮想環境を提供
- バーチャルリアリティ:没入型VR体験コンテンツを作成
パフォーマンス
WorldScoreベンチマークテストにおいて、ボイジャーは複数の評価次元で優れたパフォーマンスを発揮しました:
- カメラ制御:85.95点
- コンテンツ整列:68.92点
- 3D一貫性:81.56点
- 主観的品質:71.09点
全体平均スコアは77.62点に達し、比較手法中で1位となりました。
技術的利点
従来の3D生成手法と比較して、ボイジャーには以下の利点があります:
視覚的幻覚の回避:空間事前情報としての深度情報により、RGB条件のみに依存することで発生する可能性のある視覚的幻覚問題を回避
直接3D再構成:整列されたRGBと深度シーケンスを同時に生成し、追加のモーションからの構造やマルチビュー立体マッチングステップなしに直接3Dシーン再構成をサポート
無限ワールド拡張:任意の長さのカメラ軌道をサポートし、元の空間配置を維持しながら無限ワールド拡張を実行可能
関連リンク
この技術はHugging Faceプラットフォームでオープンソース化されています。研究者と開発者は以下を通じてアクセスできます:
- プロジェクトページ:https://3d-models.hunyuan.tencent.com/world/
- Hugging Faceモデル:https://huggingface.co/tencent/HunyuanWorld-Voyager
- GitHubリポジトリ:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
- 技術レポート:https://arxiv.org/abs/2506.04225