title: “Tencent HunyuanWorld Voyager: Создание 3D видео исследований мира из одного изображения” description: “Команда Tencent Hunyuan выпускает технологию Voyager, способную генерировать последовательности 3D облаков точек с согласованием мира из одного изображения и заданных пользователем путей камеры, поддерживающую бесконечное исследование мира и прямую 3D реконструкцию” tag: tencent, video date: 2025-09-05
Tencent HunyuanWorld Voyager: Создание 3D видео исследований мира из одного изображения
Команда Tencent Hunyuan недавно выпустила технологию HunyuanWorld-Voyager - инновационный фреймворк видео диффузии, способный генерировать последовательности 3D облаков точек с согласованием мира из одного изображения и заданных пользователем путей камеры. Эта технология предоставляет новые решения для генерации 3D сцен и исследования мира.
Технические особенности
Основное преимущество Voyager заключается в его способности генерировать видео с согласованием мира. По сравнению с существующими методами, эта технология имеет следующие особенности:
Сквозная генерация сцен: Voyager может достигать сквозной генерации и реконструкции сцен, сохраняя внутреннюю согласованность между кадрами без дополнительных процессов 3D реконструкции.
Исследование мира на большие расстояния: Благодаря эффективному кэшированию мира и технологии удаления облаков точек, в сочетании с авторегрессионным выводом и плавной выборкой видео, она поддерживает итеративное расширение сцен с сохранением контекстно-зависимой согласованности.
Масштабируемый движок данных: Предоставляет конвейер реконструкции видео, который может автоматически выполнять оценку позы камеры и предсказание метрической глубины, поддерживая составление обучающих данных крупномасштабных и разнообразных наборов без ручной 3D аннотации.
Техническая архитектура
Voyager интегрирует три ключевых компонента:
-
Видео диффузия с согласованием мира: Единая архитектура, совместно генерирующая выровненные последовательности RGB и видео глубины, обусловленные существующими наблюдениями мира для обеспечения глобальной согласованности
-
Исследование мира на большие расстояния: Эффективный механизм кэширования мира, содержащий удаление облаков точек и авторегрессионный вывод, поддерживающий плавную выборку видео для итеративного расширения сцен
-
Масштабируемый движок данных: Конвейер реконструкции видео для автоматизированной оценки позы камеры и предсказания метрической глубины, поддерживающий составление обучающих данных крупномасштабных наборов
Сценарии применения
Эта технология имеет широкие перспективы применения в нескольких областях:
- Генерация 3D мира: Создание исследуемых 3D сцен из одного изображения
- Разработка видеоигр: Быстрая генерация игровых сцен и виртуальных миров
- Кинопроизводство: Предоставление контента 3D сцен для фильмов и анимации
- Робототехническое моделирование: Предоставление виртуальных сред для обучения роботов
- Виртуальная реальность: Создание захватывающего контента VR опытов
Производительность
В тесте WorldScore Voyager показал отличные результаты по нескольким измерениям оценки:
- Управление камерой: 85,95 баллов
- Согласование контента: 68,92 баллов
- 3D согласованность: 81,56 баллов
- Субъективное качество: 71,09 баллов
Общий средний балл достиг 77,62 баллов, заняв первое место среди сравниваемых методов.
Технические преимущества
По сравнению с традиционными методами генерации 3D, Voyager имеет следующие преимущества:
Избегание визуальных галлюцинаций: Благодаря информации о глубине как пространственным априорным данным, он избегает проблем визуальных галлюцинаций, которые могут возникнуть при использовании только условий RGB
Прямая 3D реконструкция: Одновременно генерирует выровненные последовательности RGB и глубины, поддерживая прямую реконструкцию 3D сцен без дополнительных шагов структуры из движения или стерео сопоставления многовидовых изображений
Бесконечное расширение мира: Поддерживает траектории камеры произвольной длины, способен сохранять исходные пространственные макеты при выполнении бесконечного расширения мира
Связанные ссылки
Эта технология была открыта на платформе Hugging Face. Исследователи и разработчики могут получить к ней доступ через следующие ресурсы:
- Страница проекта: https://3d-models.hunyuan.tencent.com/world/
- Модель Hugging Face: https://huggingface.co/tencent/HunyuanWorld-Voyager
- Репозиторий GitHub: https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
- Технический отчет: https://arxiv.org/abs/2506.04225