Skip to content
ComfyUI Wiki
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻腾讯混元世界Voyager:从单张图片生成3D世界探索视频

腾讯混元世界Voyager:从单张图片生成3D世界探索视频

Voyager

腾讯混元团队近日发布了HunyuanWorld-Voyager技术,这是一项创新的视频扩散框架,能够从单张图片和用户定义的相机路径生成世界一致的3D点云序列。该技术为3D场景生成和世界探索提供了新的解决方案。

技术特点

demo

Voyager的核心优势在于其世界一致的视频生成能力。与现有方法相比,该技术具有以下特点:

端到端场景生成:Voyager能够实现端到端的场景生成和重建,在帧与帧之间保持内在一致性,无需额外的3D重建流程。

长距离世界探索:通过高效的世界缓存和点云剔除技术,结合自回归推理和平滑视频采样,支持迭代式场景扩展,保持上下文感知的一致性。

可扩展数据引擎:提供视频重建管道,能够自动进行相机姿态估计和度量深度预测,支持大规模、多样化的训练数据整理,无需手动3D标注。

技术架构

Voyager集成了三个关键组件:

  1. 世界一致视频扩散:统一架构,联合生成对齐的RGB和深度视频序列,以现有世界观察为条件确保全局一致性

  2. 长距离世界探索:高效的世界缓存机制,包含点云剔除和自回归推理,支持平滑视频采样进行迭代场景扩展

  3. 可扩展数据引擎:视频重建管道,自动化相机姿态估计和度量深度预测,支持大规模训练数据整理

应用场景

该技术在多个领域具有广泛的应用前景:

  • 3D世界生成:从单张图片创建可探索的3D场景
  • 视频游戏开发:快速生成游戏场景和虚拟世界
  • 影视制作:为电影和动画制作提供3D场景内容
  • 机器人仿真:为机器人训练提供虚拟环境
  • 虚拟现实:创建沉浸式的VR体验内容

性能表现

在WorldScore基准测试中,Voyager在多个评估维度上表现优异:

  • 相机控制:85.95分
  • 内容对齐:68.92分
  • 3D一致性:81.56分
  • 主观质量:71.09分

总体平均得分达到77.62分,在参与比较的方法中排名第一。

技术优势

相比传统的3D生成方法,Voyager具有以下优势:

避免视觉幻觉:通过深度信息作为空间先验,避免了仅依赖RGB条件可能产生的视觉幻觉问题

直接3D重建:同时生成对齐的RGB和深度序列,支持直接3D场景重建,无需额外的结构从运动或多视图立体匹配步骤

无限世界扩展:支持任意长度的相机轨迹,能够保持原始空间布局的同时进行无限世界扩展

相关链接

该技术已在Hugging Face平台开源,研究人员和开发者可以通过以下方式获取: