바이트댄스, LatentSync 오픈소스 공개 - 확산 모델 기반 고정밀 립싱크 기술

바이트댄스가 최근 GitHub에서 혁신적인 립싱크 도구인 LatentSync를 오픈소스로 공개했습니다. 이는 오디오 조건부 잠재 공간 확산 모델을 기반으로 한 엔드투엔드 립싱크 프레임워크로, 고정밀 오디오-비주얼 동기화를 구현할 뿐만 아니라 기존 방식에서 흔히 발생하는 프레임 지터 문제도 해결했습니다.

기술 혁신

LatentSync의 주요 기술 혁신은 다음과 같습니다:

엔드투엔드 잠재 공간 확산 모델
- 중간 동작 표현이 불필요
- 잠재 공간에서 복잡한 오디오-비주얼 관계를 직접 모델링
- Stable Diffusion의 강력한 성능을 충분히 활용
시간적 일관성 최적화
- 혁신적인 시간적 표현 정렬(TREPA) 기술 제안
- 대규모 자기 지도 비디오 모델을 사용한 시간적 특징 추출
- 생성된 비디오의 시간적 일관성을 효과적으로 향상

완벽한 도구 체인

LatentSync는 포괄적인 비디오 처리 도구 체인을 제공합니다:

전처리 도구
- 비디오 프레임 레이트 리샘플링(25fps)
- 오디오 리샘플링(16000Hz)
- 장면 감지 및 세그멘테이션
- 얼굴 감지 및 정렬
품질 보증
- 얼굴 크기 및 수량 검증
- 오디오-비주얼 동기화 신뢰도 평가
- hyperIQA 이미지 품질 평가

광범위한 적용성

LatentSync는 뛰어난 범용성을 보여줍니다:

실제 인물 비디오: 실제 인물의 입술 움직임을 정확하게 포착하고 재현
애니메이션 캐릭터: 애니메이션 캐릭터의 립싱크에도 동일하게 적용 가능
낮은 리소스 요구사항: 추론에 약 6.5GB VRAM만 필요

오픈소스 및 커뮤니티

프로젝트는 GitHub에서 오픈소스로 제공되며 다음을 포함합니다:

추론 코드 및 사전 학습된 모델
완전한 데이터 처리 프로세스
학습 코드 및 설정 파일

응용 전망

LatentSync의 출시로 비디오 제작 분야에 새로운 가능성이 열렸습니다:

비디오 후반 작업
다국어 더빙 현지화
가상 진행자 콘텐츠 생성
교육 비디오 제작

바이트댄스, Sa2VA 출시: 최초의 통합 영상-이미지 이해 모델