\"Tencent HunyuanWorld Voyager : Génération de vidéos d'exploration de mondes 3D à partir d'une seule image\"

L'équipe Tencent Hunyuan a récemment publié la technologie HunyuanWorld-Voyager, un cadre innovant de diffusion vidéo capable de générer des séquences de nuages de points 3D cohérentes avec le monde à partir d'une seule image et de trajectoires de caméra définies par l'utilisateur. Cette technologie fournit de nouvelles solutions pour la génération de scènes 3D et l'exploration du monde.

Caractéristiques techniques

demo

L'avantage central de Voyager réside dans sa capacité de génération de vidéo cohérente avec le monde. Par rapport aux méthodes existantes, cette technologie présente les caractéristiques suivantes :

Génération de scène de bout en bout : Voyager peut réaliser une génération et une reconstruction de scène de bout en bout, maintenant la cohérence intrinsèque entre les images sans processus supplémentaire de reconstruction 3D.

Exploration du monde à longue distance : Grâce à une technologie efficace de mise en cache mondiale et d'élimination de nuages de points, combinée à une inférence autorégressive et un échantillonnage vidéo fluide, elle prend en charge l'expansion itérative de scènes tout en maintenant une cohérence consciente du contexte.

Moteur de données évolutif : Fournit un pipeline de reconstruction vidéo capable d'effectuer automatiquement l'estimation de pose de caméra et la prédiction de profondeur métrique, prenant en charge la compilation de données d'entraînement à grande échelle et diversifiées sans annotation 3D manuelle.

Architecture technique

Voyager intègre trois composants clés :

Diffusion vidéo cohérente avec le monde : Une architecture unifiée qui génère conjointement des séquences vidéo RGB et de profondeur alignées, conditionnées par les observations du monde existant pour assurer la cohérence globale
Exploration du monde à longue distance : Un mécanisme efficace de mise en cache mondiale contenant l'élimination de nuages de points et l'inférence autorégressive, prenant en charge l'échantillonnage vidéo fluide pour l'expansion itérative de scènes
Moteur de données évolutif : Un pipeline de reconstruction vidéo pour l'estimation automatisée de pose de caméra et la prédiction de profondeur métrique, prenant en charge la compilation de données d'entraînement à grande échelle

Scénarios d'application

Cette technologie présente de larges perspectives d'application dans plusieurs domaines :

Génération de mondes 3D : Création de scènes 3D explorables à partir d'une seule image
Développement de jeux vidéo : Génération rapide de scènes de jeu et de mondes virtuels
Production cinématographique : Fourniture de contenu de scènes 3D pour films et animations
Simulation robotique : Fourniture d'environnements virtuels pour l'entraînement des robots
Réalité virtuelle : Création de contenu d'expériences VR immersives

Performance

Dans le test de référence WorldScore, Voyager a obtenu d'excellents résultats sur plusieurs dimensions d'évaluation :

Contrôle de caméra : 85,95 points
Alignement du contenu : 68,92 points
Cohérence 3D : 81,56 points
Qualité subjective : 71,09 points

Le score moyen global a atteint 77,62 points, se classant premier parmi les méthodes comparées.

Avantages techniques

Par rapport aux méthodes traditionnelles de génération 3D, Voyager présente les avantages suivants :

Éviter les hallucinations visuelles : Grâce aux informations de profondeur comme a priori spatial, il évite les problèmes d'hallucination visuelle qui peuvent survenir en se basant uniquement sur des conditions RGB

Reconstruction 3D directe : Génère simultanément des séquences RGB et de profondeur alignées, prenant en charge la reconstruction directe de scènes 3D sans étapes supplémentaires de structure à partir du mouvement ou de correspondance stéréo multi-vues

Expansion mondiale infinie : Prend en charge des trajectoires de caméra de longueur arbitraire, capable de maintenir les dispositions spatiales originales tout en effectuant une expansion mondiale infinie

Liens associés

Cette technologie a été mise en open source sur la plateforme Hugging Face. Les chercheurs et développeurs peuvent y accéder via les moyens suivants :

Page du projet : https://3d-models.hunyuan.tencent.com/world/
Modèle Hugging Face : https://huggingface.co/tencent/HunyuanWorld-Voyager
Dépôt GitHub : https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
Rapport technique : https://arxiv.org/abs/2506.04225