바이트댄스, LatentSync 오픈소스 공개 - 확산 모델 기반 고정밀 립싱크 기술
바이트댄스가 최근 GitHub에서 혁신적인 립싱크 도구인 LatentSync를 오픈소스로 공개했습니다. 이는 오디오 조건부 잠재 공간 확산 모델을 기반으로 한 엔드투엔드 립싱크 프레임워크로, 고정밀 오디오-비주얼 동기화를 구현할 뿐만 아니라 기존 방식에서 흔히 발생하는 프레임 지터 문제도 해결했습니다.
기술 혁신
LatentSync의 주요 기술 혁신은 다음과 같습니다:
-
엔드투엔드 잠재 공간 확산 모델
- 중간 동작 표현이 불필요
- 잠재 공간에서 복잡한 오디오-비주얼 관계를 직접 모델링
- Stable Diffusion의 강력한 성능을 충분히 활용
-
시간적 일관성 최적화
- 혁신적인 시간적 표현 정렬(TREPA) 기술 제안
- 대규모 자기 지도 비디오 모델을 사용한 시간적 특징 추출
- 생성된 비디오의 시간적 일관성을 효과적으로 향상
완벽한 도구 체인
LatentSync는 포괄적인 비디오 처리 도구 체인을 제공합니다:
-
전처리 도구
- 비디오 프레임 레이트 리샘플링(25fps)
- 오디오 리샘플링(16000Hz)
- 장면 감지 및 세그멘테이션
- 얼굴 감지 및 정렬
-
품질 보증
- 얼굴 크기 및 수량 검증
- 오디오-비주얼 동기화 신뢰도 평가
- hyperIQA 이미지 품질 평가
광범위한 적용성
LatentSync는 뛰어난 범용성을 보여줍니다:
- 실제 인물 비디오: 실제 인물의 입술 움직임을 정확하게 포착하고 재현
- 애니메이션 캐릭터: 애니메이션 캐릭터의 립싱크에도 동일하게 적용 가능
- 낮은 리소스 요구사항: 추론에 약 6.5GB VRAM만 필요
오픈소스 및 커뮤니티
프로젝트는 GitHub에서 오픈소스로 제공되며 다음을 포함합니다:
- 추론 코드 및 사전 학습된 모델
- 완전한 데이터 처리 프로세스
- 학습 코드 및 설정 파일
응용 전망
LatentSync의 출시로 비디오 제작 분야에 새로운 가능성이 열렸습니다:
- 비디오 후반 작업
- 다국어 더빙 현지화
- 가상 진행자 콘텐츠 생성
- 교육 비디오 제작