腾讯混元世界Voyager:从单张图片生成3D世界探索视频
2025/09/05
腾讯混元世界Voyager:从单张图片生成3D世界探索视频
腾讯混元团队近日发布了HunyuanWorld-Voyager技术,这是一项创新的视频扩散框架,能够从单张图片和用户定义的相机路径生成世界一致的3D点云序列。该技术为3D场景生成和世界探索提供了新的解决方案。
技术特点
Voyager的核心优势在于其世界一致的视频生成能力。与现有方法相比,该技术具有以下特点:
端到端场景生成:Voyager能够实现端到端的场景生成和重建,在帧与帧之间保持内在一致性,无需额外的3D重建流程。
长距离世界探索:通过高效的世界缓存和点云剔除技术,结合自回归推理和平滑视频采样,支持迭代式场景扩展,保持上下文感知的一致性。
可扩展数据引擎:提供视频重建管道,能够自动进行相机姿态估计和度量深度预测,支持大规模、多样化的训练数据整理,无需手动3D标注。
技术架构
Voyager集成了三个关键组件:
-
世界一致视频扩散:统一架构,联合生成对齐的RGB和深度视频序列,以现有世界观察为条件确保全局一致性
-
长距离世界探索:高效的世界缓存机制,包含点云剔除和自回归推理,支持平滑视频采样进行迭代场景扩展
-
可扩展数据引擎:视频重建管道,自动化相机姿态估计和度量深度预测,支持大规模训练数据整理
应用场景
该技术在多个领域具有广泛的应用前景:
- 3D世界生成:从单张图片创建可探索的3D场景
- 视频游戏开发:快速生成游戏场景和虚拟世界
- 影视制作:为电影和动画制作提供3D场景内容
- 机器人仿真:为机器人训练提供虚拟环境
- 虚拟现实:创建沉浸式的VR体验内容
性能表现
在WorldScore基准测试中,Voyager在多个评估维度上表现优异:
- 相机控制:85.95分
- 内容对齐:68.92分
- 3D一致性:81.56分
- 主观质量:71.09分
总体平均得分达到77.62分,在参与比较的方法中排名第一。
技术优势
相比传统的3D生成方法,Voyager具有以下优势:
避免视觉幻觉:通过深度信息作为空间先验,避免了仅依赖RGB条件可能产生的视觉幻觉问题
直接3D重建:同时生成对齐的RGB和深度序列,支持直接3D场景重建,无需额外的结构从运动或多视图立体匹配步骤
无限世界扩展:支持任意长度的相机轨迹,能够保持原始空间布局的同时进行无限世界扩展
相关链接
该技术已在Hugging Face平台开源,研究人员和开发者可以通过以下方式获取:
- 项目页面:https://3d-models.hunyuan.tencent.com/world/
- Hugging Face模型:https://huggingface.co/tencent/HunyuanWorld-Voyager
- GitHub仓库:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
- 技术报告:https://arxiv.org/abs/2506.04225