InfiniteTalk 오픈소스 출시 - 무제한 길이 지원하는 오디오 기반 비디오 생성 기술

InfiniteTalk 데모

MeiGen-AI 팀이 최근 InfiniteTalk 모델을 오픈소스로 공개했는데, 이는 무제한 길이 지원하는 오디오 기반 비디오 생성을 가능하게 하는 혁신적인 프로젝트입니다. 이 기술은 정밀한 입모양 동기화뿐만 아니라 안정적인 신체 움직임과 표정 유지도 실현하여 디지털 휴먼 기술 분야에서 중요한 돌파구를 마련했습니다.

주요 특징

InfiniteTalk은 희소 프레임 비디오 더빙 프레임워크를 채택합니다. 전통적인 입모양 동기화에만 집중하는 방법과 비교할 때 이 기술은 다음과 같은 뚜렷한 장점을 제공합니다:

정밀한 입모양 동기화: 오디오와 정확한 입 모양 매칭
무제한 길이 생성: 초장편 비디오 콘텐츠 생성 지원
전신 움직임 동기화: 입술뿐만 아니라 머리, 몸통, 표정 동기화
안정적인 정체성 유지: 장시간 생성 과정에서 인물 정체성 일관성 유지
다양한 시나리오 지원: 이미지-비디오 및 비디오-비디오 변환 모두 지원

핵심 기능

오디오 기반 비디오 생성

InfiniteTalk은 입력 오디오 파일에 따라 동기화된 비디오 콘텐츠를 생성할 수 있습니다. 말하기든 노래든 자연스러운 입모양 동기화 효과를 실현합니다.

무제한 길이 지원

이 기술은 전통적인 비디오 생성 길이 제한을 돌파하여 이론적으로 임의 길이의 비디오 콘텐츠 생성이 가능합니다. 특히 장시간 디지털 휴먼 설명 비디오 제작에 적합합니다.

다중 해상도 지원

모델은 480P와 720P 두 가지 해상도를 지원하여 사용자의 요구에 따라 적절한 출력 품질을 선택할 수 있습니다.

기술 아키텍처

InfiniteTalk은 Wan2.1 모델을 기반으로 구축되어 혁신적인 희소 프레임 처리 기술을 통해 효율적인 비디오 생성을 실현합니다. 모델은 컨텍스트 윈도우 메커니즘을 채택하며 기본 설정으로 81프레임의 컨텍스트 윈도우를 사용하는데, 이것이 무제한 생성을 실현하는 핵심 기술입니다.

오픈소스 정보

InfiniteTalk 프로젝트는 Apache 2.0 라이선스 하에 GitHub에서 오픈소스로 공개되었습니다. 프로젝트는 완전한 모델 웨이트, 코드 구현 및 사용 문서를 포함하여 연구자와 개발자에게 완전한 솔루션을 제공합니다.