Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
Новости2025 09 05 Tencent Hunyuanworld Voyager 3d Video Generation

title: “Tencent HunyuanWorld Voyager: Создание 3D видео исследований мира из одного изображения” description: “Команда Tencent Hunyuan выпускает технологию Voyager, способную генерировать последовательности 3D облаков точек с согласованием мира из одного изображения и заданных пользователем путей камеры, поддерживающую бесконечное исследование мира и прямую 3D реконструкцию” tag: tencent, video date: 2025-09-05

Tencent HunyuanWorld Voyager: Создание 3D видео исследований мира из одного изображения

Voyager

Команда Tencent Hunyuan недавно выпустила технологию HunyuanWorld-Voyager - инновационный фреймворк видео диффузии, способный генерировать последовательности 3D облаков точек с согласованием мира из одного изображения и заданных пользователем путей камеры. Эта технология предоставляет новые решения для генерации 3D сцен и исследования мира.

Технические особенности

demo

Основное преимущество Voyager заключается в его способности генерировать видео с согласованием мира. По сравнению с существующими методами, эта технология имеет следующие особенности:

Сквозная генерация сцен: Voyager может достигать сквозной генерации и реконструкции сцен, сохраняя внутреннюю согласованность между кадрами без дополнительных процессов 3D реконструкции.

Исследование мира на большие расстояния: Благодаря эффективному кэшированию мира и технологии удаления облаков точек, в сочетании с авторегрессионным выводом и плавной выборкой видео, она поддерживает итеративное расширение сцен с сохранением контекстно-зависимой согласованности.

Масштабируемый движок данных: Предоставляет конвейер реконструкции видео, который может автоматически выполнять оценку позы камеры и предсказание метрической глубины, поддерживая составление обучающих данных крупномасштабных и разнообразных наборов без ручной 3D аннотации.

Техническая архитектура

Voyager интегрирует три ключевых компонента:

  1. Видео диффузия с согласованием мира: Единая архитектура, совместно генерирующая выровненные последовательности RGB и видео глубины, обусловленные существующими наблюдениями мира для обеспечения глобальной согласованности

  2. Исследование мира на большие расстояния: Эффективный механизм кэширования мира, содержащий удаление облаков точек и авторегрессионный вывод, поддерживающий плавную выборку видео для итеративного расширения сцен

  3. Масштабируемый движок данных: Конвейер реконструкции видео для автоматизированной оценки позы камеры и предсказания метрической глубины, поддерживающий составление обучающих данных крупномасштабных наборов

Сценарии применения

Эта технология имеет широкие перспективы применения в нескольких областях:

  • Генерация 3D мира: Создание исследуемых 3D сцен из одного изображения
  • Разработка видеоигр: Быстрая генерация игровых сцен и виртуальных миров
  • Кинопроизводство: Предоставление контента 3D сцен для фильмов и анимации
  • Робототехническое моделирование: Предоставление виртуальных сред для обучения роботов
  • Виртуальная реальность: Создание захватывающего контента VR опытов

Производительность

В тесте WorldScore Voyager показал отличные результаты по нескольким измерениям оценки:

  • Управление камерой: 85,95 баллов
  • Согласование контента: 68,92 баллов
  • 3D согласованность: 81,56 баллов
  • Субъективное качество: 71,09 баллов

Общий средний балл достиг 77,62 баллов, заняв первое место среди сравниваемых методов.

Технические преимущества

По сравнению с традиционными методами генерации 3D, Voyager имеет следующие преимущества:

Избегание визуальных галлюцинаций: Благодаря информации о глубине как пространственным априорным данным, он избегает проблем визуальных галлюцинаций, которые могут возникнуть при использовании только условий RGB

Прямая 3D реконструкция: Одновременно генерирует выровненные последовательности RGB и глубины, поддерживая прямую реконструкцию 3D сцен без дополнительных шагов структуры из движения или стерео сопоставления многовидовых изображений

Бесконечное расширение мира: Поддерживает траектории камеры произвольной длины, способен сохранять исходные пространственные макеты при выполнении бесконечного расширения мира

Связанные ссылки

Эта технология была открыта на платформе Hugging Face. Исследователи и разработчики могут получить к ней доступ через следующие ресурсы: