Skip to content
ComfyUI Wiki가 광고를 제거하도록 도와주세요 후원자 되기
새소식바이트댄스, LatentSync 오픈소스 공개 - 확산 모델 기반 고정밀 립싱크 기술

바이트댄스, LatentSync 오픈소스 공개 - 확산 모델 기반 고정밀 립싱크 기술

바이트댄스가 최근 GitHub에서 혁신적인 립싱크 도구인 LatentSync를 오픈소스로 공개했습니다. 이는 오디오 조건부 잠재 공간 확산 모델을 기반으로 한 엔드투엔드 립싱크 프레임워크로, 고정밀 오디오-비주얼 동기화를 구현할 뿐만 아니라 기존 방식에서 흔히 발생하는 프레임 지터 문제도 해결했습니다.

기술 혁신

LatentSync의 주요 기술 혁신은 다음과 같습니다:

  1. 엔드투엔드 잠재 공간 확산 모델

    • 중간 동작 표현이 불필요
    • 잠재 공간에서 복잡한 오디오-비주얼 관계를 직접 모델링
    • Stable Diffusion의 강력한 성능을 충분히 활용
  2. 시간적 일관성 최적화

    • 혁신적인 시간적 표현 정렬(TREPA) 기술 제안
    • 대규모 자기 지도 비디오 모델을 사용한 시간적 특징 추출
    • 생성된 비디오의 시간적 일관성을 효과적으로 향상

완벽한 도구 체인

LatentSync는 포괄적인 비디오 처리 도구 체인을 제공합니다:

  • 전처리 도구

    • 비디오 프레임 레이트 리샘플링(25fps)
    • 오디오 리샘플링(16000Hz)
    • 장면 감지 및 세그멘테이션
    • 얼굴 감지 및 정렬
  • 품질 보증

    • 얼굴 크기 및 수량 검증
    • 오디오-비주얼 동기화 신뢰도 평가
    • hyperIQA 이미지 품질 평가

광범위한 적용성

LatentSync는 뛰어난 범용성을 보여줍니다:

  • 실제 인물 비디오: 실제 인물의 입술 움직임을 정확하게 포착하고 재현
  • 애니메이션 캐릭터: 애니메이션 캐릭터의 립싱크에도 동일하게 적용 가능
  • 낮은 리소스 요구사항: 추론에 약 6.5GB VRAM만 필요

오픈소스 및 커뮤니티

프로젝트는 GitHub에서 오픈소스로 제공되며 다음을 포함합니다:

  • 추론 코드 및 사전 학습된 모델
  • 완전한 데이터 처리 프로세스
  • 학습 코드 및 설정 파일

응용 전망

LatentSync의 출시로 비디오 제작 분야에 새로운 가능성이 열렸습니다:

  • 비디오 후반 작업
  • 다국어 더빙 현지화
  • 가상 진행자 콘텐츠 생성
  • 교육 비디오 제작

참고 링크