텐센트, StereoCrafter 오픈소스 공개: 일반 동영상을 3D 동영상으로 원클릭 변환
텐센트 AI Lab과 ARC Lab이 공동 개발한 StereoCrafter 모델이 공식적으로 오픈소스로 공개되었습니다. 이는 일반 2D 동영상을 고품질 입체 3D 동영상으로 변환할 수 있는 혁신적인 비디오 처리 프레임워크로, 콘텐츠 제작자와 개발자들에게 강력한 도구를 제공합니다. 이 프로젝트는 자오스제, 후원보, 춘샤오동 등의 연구원들이 함께 완성했으며, 텐센트의 비디오 처리와 AI 분야의 기술력을 보여줍니다.
주요 특징
- 다양한 포맷 지원: 적청 3D, VR 포맷 또는 좌우 분할 화면 형식의 입체 영상 생성 가능
- 광범위한 호환성: 3D 안경, Apple Vision Pro, 3D 디스플레이 등 다양한 3D 디스플레이 장치 지원
- 풍부한 응용 시나리오: 영화, Vlog, 3D 애니메이션, AI 생성 비디오 등 다양한 콘텐츠 유형에 적용 가능
- 고품질 출력: 확산 모델 기반으로 장시간, 고품질의 입체 3D 효과 생성
- 자동 처리: 다양한 길이와 해상도의 입력 비디오를 자동으로 처리
- 실시간 미리보기: 생성 효과 미리보기 지원으로 출력 품질 보장
기술 혁신
StereoCrafter는 확산 모델 기반의 혁신적인 프레임워크를 채택했으며, 전체 처리 과정은 두 가지 주요 단계로 구성됩니다:
첫 번째 단계: 깊이 추정 및 비디오 레이어링
- 단안 비디오에서 비디오 깊이 정보 추정
- 깊이 기반 비디오 레이어링 기술을 통한 처리
- 초기 변형 비디오 및 가림 마스크 생성
두 번째 단계: 입체 비디오 복원
- 전문 입체 비디오 복원 모델 훈련
- 가림 마스크에 따른 빈 영역 채우기
- 최종 고품질 입체 비디오 생성
이 방식은 비디오의 고품질을 유지하면서도 자연스러운 3D 효과를 보장합니다. 연구팀은 또한 훈련을 지원하기 위한 대규모, 고품질 데이터셋을 재구성하는 복잡한 데이터 처리 과정을 개발했습니다.
실제 응용 시나리오
StereoCrafter의 응용 범위는 매우 광범위합니다:
-
영상 제작
- 기존 2D 영화의 3D 변환
- 비디오 후반 작업 강화
- 실시간 스트리밍 콘텐츠의 3D 변환
-
콘텐츠 제작
- Vlog 및 숏폼 비디오 3D 효과 제작
- YouTube 3D 콘텐츠 제작
- 게임 플레이 영상의 3D 변환
-
가상 현실
- VR 장치 콘텐츠 적용
- Apple Vision Pro 비디오 최적화
- 메타버스 콘텐츠 제작
-
교육 훈련
- 3D 교육 비디오 제작
- 가상 훈련 자료
- 의료 영상 시각화
기술 사양
- 입력 지원: 다양한 일반 비디오 포맷 지원
- 해상도: 최대 4K 비디오 처리 지원
- 처리 시간: 모든 길이의 비디오 처리 가능
- 출력 포맷:
- 좌우 분할 3D
- 적청 입체 3D
- Vision Pro 전용 포맷
- VR 장치 범용 포맷
오픈소스 획득
StereoCrafter는 현재 Hugging Face 플랫폼에서 오픈소스로 제공되며, 개발자는 다음 경로를 통해 획득할 수 있습니다:
미래 전망
이 오픈소스 프로젝트의 공개는 3D 콘텐츠 제작과 몰입형 경험 분야에 새로운 가능성을 제시할 것입니다. Apple Vision Pro 등 새로운 세대의 VR/AR 장치가 보급됨에 따라, StereoCrafter와 같은 도구는 콘텐츠 생태계 구축에 중요한 역할을 할 것입니다. 프로젝트 팀은 앞으로도 모델 성능을 최적화하고, 더 많은 기능을 추가하며, 새로운 응용 시나리오를 탐구할 계획입니다.
참고 자료
- StereoCrafter 공식 데모 비디오
- 텐센트 AI Lab 기술 블로그
- arXiv 논문: StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos