title: “Tencent HunyuanWorld Voyager : Génération de vidéos d’exploration de mondes 3D à partir d’une seule image” description: “L’équipe Tencent Hunyuan publie la technologie Voyager, capable de générer des vidéos de séquences de nuages de points 3D cohérentes avec le monde à partir d’une seule image et de trajectoires de caméra définies par l’utilisateur, prenant en charge l’exploration infinie du monde et la reconstruction 3D directe” tag: tencent, video date: 2025-09-05
Tencent HunyuanWorld Voyager : Génération de vidéos d’exploration de mondes 3D à partir d’une seule image
L’équipe Tencent Hunyuan a récemment publié la technologie HunyuanWorld-Voyager, un cadre innovant de diffusion vidéo capable de générer des séquences de nuages de points 3D cohérentes avec le monde à partir d’une seule image et de trajectoires de caméra définies par l’utilisateur. Cette technologie fournit de nouvelles solutions pour la génération de scènes 3D et l’exploration du monde.
Caractéristiques techniques
L’avantage central de Voyager réside dans sa capacité de génération de vidéo cohérente avec le monde. Par rapport aux méthodes existantes, cette technologie présente les caractéristiques suivantes :
Génération de scène de bout en bout : Voyager peut réaliser une génération et une reconstruction de scène de bout en bout, maintenant la cohérence intrinsèque entre les images sans processus supplémentaire de reconstruction 3D.
Exploration du monde à longue distance : Grâce à une technologie efficace de mise en cache mondiale et d’élimination de nuages de points, combinée à une inférence autorégressive et un échantillonnage vidéo fluide, elle prend en charge l’expansion itérative de scènes tout en maintenant une cohérence consciente du contexte.
Moteur de données évolutif : Fournit un pipeline de reconstruction vidéo capable d’effectuer automatiquement l’estimation de pose de caméra et la prédiction de profondeur métrique, prenant en charge la compilation de données d’entraînement à grande échelle et diversifiées sans annotation 3D manuelle.
Architecture technique
Voyager intègre trois composants clés :
-
Diffusion vidéo cohérente avec le monde : Une architecture unifiée qui génère conjointement des séquences vidéo RGB et de profondeur alignées, conditionnées par les observations du monde existant pour assurer la cohérence globale
-
Exploration du monde à longue distance : Un mécanisme efficace de mise en cache mondiale contenant l’élimination de nuages de points et l’inférence autorégressive, prenant en charge l’échantillonnage vidéo fluide pour l’expansion itérative de scènes
-
Moteur de données évolutif : Un pipeline de reconstruction vidéo pour l’estimation automatisée de pose de caméra et la prédiction de profondeur métrique, prenant en charge la compilation de données d’entraînement à grande échelle
Scénarios d’application
Cette technologie présente de larges perspectives d’application dans plusieurs domaines :
- Génération de mondes 3D : Création de scènes 3D explorables à partir d’une seule image
- Développement de jeux vidéo : Génération rapide de scènes de jeu et de mondes virtuels
- Production cinématographique : Fourniture de contenu de scènes 3D pour films et animations
- Simulation robotique : Fourniture d’environnements virtuels pour l’entraînement des robots
- Réalité virtuelle : Création de contenu d’expériences VR immersives
Performance
Dans le test de référence WorldScore, Voyager a obtenu d’excellents résultats sur plusieurs dimensions d’évaluation :
- Contrôle de caméra : 85,95 points
- Alignement du contenu : 68,92 points
- Cohérence 3D : 81,56 points
- Qualité subjective : 71,09 points
Le score moyen global a atteint 77,62 points, se classant premier parmi les méthodes comparées.
Avantages techniques
Par rapport aux méthodes traditionnelles de génération 3D, Voyager présente les avantages suivants :
Éviter les hallucinations visuelles : Grâce aux informations de profondeur comme a priori spatial, il évite les problèmes d’hallucination visuelle qui peuvent survenir en se basant uniquement sur des conditions RGB
Reconstruction 3D directe : Génère simultanément des séquences RGB et de profondeur alignées, prenant en charge la reconstruction directe de scènes 3D sans étapes supplémentaires de structure à partir du mouvement ou de correspondance stéréo multi-vues
Expansion mondiale infinie : Prend en charge des trajectoires de caméra de longueur arbitraire, capable de maintenir les dispositions spatiales originales tout en effectuant une expansion mondiale infinie
Liens associés
Cette technologie a été mise en open source sur la plateforme Hugging Face. Les chercheurs et développeurs peuvent y accéder via les moyens suivants :
- Page du projet : https://3d-models.hunyuan.tencent.com/world/
- Modèle Hugging Face : https://huggingface.co/tencent/HunyuanWorld-Voyager
- Dépôt GitHub : https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
- Rapport technique : https://arxiv.org/abs/2506.04225