바이트댄스, USO 발표: 통합 스타일 및 주체 기반 이미지 생성 모델
2025. 08. 28.
title: “텐센트 훈유안월드 보이저: 단일 이미지로부터 3D 세계 탐색 비디오 생성” description: “텐센트 훈유안 팀이 보이저 기술을 공개, 단일 이미지와 사용자 정의 카메라 경로로부터 세계 일관성 있는 3D 포인트 클라우드 시퀀스 비디오를 생성 가능, 무한 세계 탐색과 직접 3D 재구성을 지원” tag: tencent, video date: 2025-09-05
텐센트 훈유안월드 보이저: 단일 이미지로부터 3D 세계 탐색 비디오 생성
텐센트 훈유안 팀은 최근 HunyuanWorld-Voyager 기술을 공개했습니다. 이는 단일 이미지와 사용자 정의 카메라 경로로부터 세계 일관성 있는 3D 포인트 클라우드 시퀀스를 생성할 수 있는 혁신적인 비디오 확산 프레임워크입니다. 이 기술은 3D 장면 생성과 세계 탐색에 새로운 솔루션을 제공합니다.
기술적 특징
보이저의 핵심 장점은 세계 일관성 있는 비디오 생성 능력에 있습니다. 기존 방법과 비교해 이 기술은 다음과 같은 특징을 가지고 있습니다:
엔드투엔드 장면 생성: 보이저는 엔드투엔드 장면 생성과 재구성을 실현하여, 추가 3D 재구성 프로세스 없이 프레임 간 내재적 일관성을 유지할 수 있습니다.
장거리 세계 탐색: 효율적인 세계 캐싱과 포인트 클라우드 컬링 기술을 결합하고, 자기회귀 추론과 부드러운 비디오 샘플링을 통해 문맥 인식 일관성을 유지하면서 반복적 장면 확장을 지원합니다.
확장 가능한 데이터 엔진: 카메라 포즈 추정과 메트릭 깊이 예측을 자동으로 수행하는 비디오 재구성 파이프라인을 제공하여, 수동 3D 주석 없이 대규모, 다양한 훈련 데이터 큐레이션을 지원합니다.
기술 아키텍처
보이저는 세 가지 핵심 컴포넌트를 통합합니다:
-
세계 일관성 있는 비디오 확산: 기존 세계 관측을 조건으로 하여 정렬된 RGB와 깊이 비디오 시퀀스를 공동 생성하는 통일 아키텍처로, 글로벌 일관성을 보장
-
장거리 세계 탐색: 포인트 클라우드 컬링과 자기회귀 추론을 포함하는 효율적인 세계 캐싱 메커니즘으로, 반복 장면 확장을 위한 부드러운 비디오 샘플링을 지원
-
확장 가능한 데이터 엔진: 자동화된 카메라 포즈 추정과 메트릭 깊이 예측을 위한 비디오 재구성 파이프라인으로, 대규모 훈련 데이터 큐레이션을 지원
응용 시나리오
이 기술은 여러 분야에서 넓은 응용 전망을 가지고 있습니다:
- 3D 세계 생성: 단일 이미지로부터 탐색 가능한 3D 장면 생성
- 비디오 게임 개발: 게임 장면과 가상 세계를 빠르게 생성
- 영화 제작: 영화와 애니메이션을 위한 3D 장면 콘텐츠 제공
- 로봇 시뮬레이션: 로봇 훈련을 위한 가상 환경 제공
- 가상현실: 몰입형 VR 체험 콘텐츠 생성
성능
WorldScore 벤치마크 테스트에서 보이저는 여러 평가 차원에서 우수한 성능을 보였습니다:
- 카메라 제어: 85.95점
- 콘텐츠 정렬: 68.92점
- 3D 일관성: 81.56점
- 주관적 품질: 71.09점
전체 평균 점수는 77.62점에 달해, 비교 방법 중 1위를 기록했습니다.
기술적 장점
기존 3D 생성 방법과 비교해 보이저는 다음과 같은 장점을 가지고 있습니다:
시각적 환각 회피: 공간 사전 정보로써 깊이 정보를 통해 RGB 조건만에 의존함으로써 발생할 수 있는 시각적 환각 문제를 회피
직접 3D 재구성: 정렬된 RGB와 깊이 시퀀스를 동시에 생성하여, 추가적인 모션으로부터의 구조나 멀티뷰 스테레오 매칭 단계 없이 직접 3D 장면 재구성을 지원
무한 세계 확장: 임의의 길이 카메라 궤도를 지원하여, 원래 공간 배치를 유지하면서 무한 세계 확장을 수행 가능
관련 링크
이 기술은 Hugging Face 플랫폼에서 오픈소스화되었습니다. 연구자와 개발자는 다음을 통해 접근할 수 있습니다:
- 프로젝트 페이지: https://3d-models.hunyuan.tencent.com/world/
- Hugging Face 모델: https://huggingface.co/tencent/HunyuanWorld-Voyager
- GitHub 저장소: https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
- 기술 보고서: https://arxiv.org/abs/2506.04225