腾讯混元世界Voyager：从单张图片生成3D世界探索视频

腾讯混元团队近日发布了HunyuanWorld-Voyager技术，这是一项创新的视频扩散框架，能够从单张图片和用户定义的相机路径生成世界一致的3D点云序列。该技术为3D场景生成和世界探索提供了新的解决方案。

技术特点

demo

Voyager的核心优势在于其世界一致的视频生成能力。与现有方法相比，该技术具有以下特点：

端到端场景生成：Voyager能够实现端到端的场景生成和重建，在帧与帧之间保持内在一致性，无需额外的3D重建流程。

长距离世界探索：通过高效的世界缓存和点云剔除技术，结合自回归推理和平滑视频采样，支持迭代式场景扩展，保持上下文感知的一致性。

可扩展数据引擎：提供视频重建管道，能够自动进行相机姿态估计和度量深度预测，支持大规模、多样化的训练数据整理，无需手动3D标注。

Voyager集成了三个关键组件：

该技术在多个领域具有广泛的应用前景：

在WorldScore基准测试中，Voyager在多个评估维度上表现优异：

总体平均得分达到77.62分，在参与比较的方法中排名第一。

相比传统的3D生成方法，Voyager具有以下优势：

避免视觉幻觉：通过深度信息作为空间先验，避免了仅依赖RGB条件可能产生的视觉幻觉问题

直接3D重建：同时生成对齐的RGB和深度序列，支持直接3D场景重建，无需额外的结构从运动或多视图立体匹配步骤

无限世界扩展：支持任意长度的相机轨迹，能够保持原始空间布局的同时进行无限世界扩展