Tencent HunyuanWorld Voyager: Generando videos de exploración de mundos 3D desde una sola imagen

El equipo de Tencent Hunyuan ha lanzado recientemente la tecnología HunyuanWorld-Voyager, un innovador marco de difusión de video capaz de generar secuencias de nubes de puntos 3D coherentes con el mundo a partir de una sola imagen y trayectorias de cámara definidas por el usuario. Esta tecnología proporciona nuevas soluciones para la generación de escenas 3D y la exploración del mundo.

Características técnicas

demo

La ventaja central de Voyager radica en su capacidad de generación de video coherente con el mundo. En comparación con los métodos existentes, esta tecnología tiene las siguientes características:

Generación de escenas de extremo a extremo: Voyager puede lograr una generación y reconstrucción de escenas de extremo a extremo, manteniendo la coherencia intrínseca entre fotogramas sin procesos adicionales de reconstrucción 3D.

Exploración mundial a larga distancia: A través de tecnología eficiente de almacenamiento en caché mundial y eliminación de nubes de puntos, combinada con inferencia autorregresiva y muestreo de video suave, admite una expansión iterativa de escenas manteniendo la coherencia consciente del contexto.

Motor de datos escalable: Proporciona una canalización de reconstrucción de video que puede realizar automáticamente la estimación de poses de cámara y predicción de profundidad métrica, admitiendo la curación de datos de entrenamiento a gran escala y diversos sin anotación 3D manual.

Arquitectura técnica

Voyager integra tres componentes clave:

Difusión de video coherente con el mundo: Una arquitectura unificada que genera conjuntamente secuencias de video RGB y de profundidad alineadas, condicionadas por observaciones del mundo existente para garantizar la coherencia global
Exploración mundial a larga distancia: Un mecanismo eficiente de almacenamiento en caché mundial que contiene eliminación de nubes de puntos e inferencia autorregresiva, admitiendo muestreo de video suave para expansión iterativa de escenas
Motor de datos escalable: Una canalización de reconstrucción de video para estimación automatizada de poses de cámara y predicción de profundidad métrica, admitiendo curación de datos de entrenamiento a gran escala

Escenarios de aplicación

Esta tecnología tiene amplias perspectivas de aplicación en múltiples campos:

Generación de mundos 3D: Creando escenas 3D explorables desde una sola imagen
Desarrollo de videojuegos: Generando rápidamente escenas de juegos y mundos virtuales
Producción cinematográfica: Proporcionando contenido de escenas 3D para películas y animaciones
Simulación robótica: Proporcionando entornos virtuales para el entrenamiento de robots
Realidad virtual: Creando contenido de experiencias VR inmersivas

Rendimiento

En la prueba de referencia WorldScore, Voyager obtuvo un excelente rendimiento en múltiples dimensiones de evaluación:

Control de cámara: 85,95 puntos
Alineación de contenido: 68,92 puntos
Coherencia 3D: 81,56 puntos
Calidad subjetiva: 71,09 puntos

La puntuación promedio general alcanzó los 77,62 puntos, ocupando el primer lugar entre los métodos comparados.

Ventajas técnicas

En comparación con los métodos tradicionales de generación 3D, Voyager tiene las siguientes ventajas:

Evitando alucinaciones visuales: A través de la información de profundidad como priores espaciales, evita los problemas de alucinación visual que pueden surgir al depender únicamente de condiciones RGB

Reconstrucción 3D directa: Genera simultáneamente secuencias RGB y de profundidad alineadas, admitiendo reconstrucción directa de escenas 3D sin pasos adicionales de estructura desde movimiento o coincidencia estéreo multivista

Expansión mundial infinita: Admite trayectorias de cámara de longitud arbitraria, capaz de mantener los diseños espaciales originales mientras realiza una expansión mundial infinita

Enlaces relacionados

Esta tecnología ha sido de código abierto en la plataforma Hugging Face. Los investigadores y desarrolladores pueden acceder a través de los siguientes:

Página del proyecto: https://3d-models.hunyuan.tencent.com/world/
Modelo de Hugging Face: https://huggingface.co/tencent/HunyuanWorld-Voyager
Repositorio de GitHub: https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
Informe técnico: https://arxiv.org/abs/2506.04225