Wan2.2-S2V: 오디오 기반 비디오 생성 모델 출시

Demo

Wan2.2-S2V는 정적 이미지와 오디오 입력을 비디오 콘텐츠로 변환할 수 있는 AI 비디오 생성 모델입니다. 이 모델은 단일 생성으로 분 단위의 비디오를 생성할 수 있어, 디지털 휴먼 라이브 스트리밍, 영상 제작, 교육 업계의 비디오 제작에 새로운 솔루션을 제공합니다.

이 모델은 영화 및 TV 응용 시나리오에서 좋은 성능을 보이며, 표정, 신체 동작, 카메라 언어를 생성할 수 있습니다. 전신 및 반신 캐릭터 생성을 지원하며, 대화, 노래, 공연 등의 다양한 콘텐츠 제작 요구를 완료할 수 있습니다.

기술적 특징

이미지 + 오디오 = 비디오 생성 Wan2.2-S2V는 이미지와 오디오를 결합한 입력 방식을 사용하여 정적 이미지와 오디오 클립을 통해 비디오 콘텐츠를 생성합니다. 이 모델은 실제 사람, 만화, 동물, 디지털 휴먼 등의 이미지 유형을 지원하며, 초상화, 반신, 전신 등의 형식을 지원합니다. 오디오 클립을 업로드한 후, 모델은 이미지 내의 주요 피사체가 말하기, 노래하기, 공연하기 등의 동작을 수행하도록 할 수 있습니다.

오디오 기반 비디오 생성 이 모델은 오디오 입력을 기반으로 비디오를 생성할 수 있으며, 대화 및 내러티브 장면 생성을 지원합니다. 오디오 입력을 통해 모델은 캐릭터의 립싱크, 표정, 동작을 제어하여 오디오-비디오 동기화를 달성합니다.

텍스트 제어 기능 Wan2.2-S2V는 텍스트 제어도 지원하여 Prompt 입력을 통해 비디오 장면을 제어할 수 있으며, 비디오 피사체의 동작과 배경의 변화를 가능하게 합니다. 예를 들어, 피아노를 치는 사람의 사진, 노래, 텍스트 설명을 업로드하면 모델은 피아노 연주 비디오를 생성할 수 있으며, 캐릭터의 일관성을 원본 이미지와 유지하고, 표정과 입 동작을 오디오와 동기화하며, 손가락 동작도 오디오 리듬에 맞출 수 있습니다.

기술 아키텍처

Wan2.2-S2V는 통의만상 비디오 생성 기반 모델을 기반으로 하며, 텍스트 유도 글로벌 모션 제어와 오디오 기반 로컬 모션 제어를 결합하여 오디오 기반 비디오 생성을 달성합니다. 모델은 AdaIN과 CrossAttention 제어 메커니즘을 채택하여 오디오 제어 효과를 향상시킵니다.

긴 비디오 생성을 지원하기 위해 Wan2.2-S2V는 계층적 프레임 압축 기술을 사용하여 역사적 프레임의 토큰 수를 줄이고, motion frames(역사적 참조 프레임)를 여러 프레임에서 73 프레임으로 확장하여 안정적인 긴 비디오 생성을 달성합니다.

훈련에서 팀은 60만 개 이상의 오디오-비디오 세그먼트 데이터셋을 구축하고, 혼합 병렬 훈련을 사용하여 전체 매개변수 훈련을 수행했습니다. 모델은 다중 해상도 훈련과 추론을 지원하며, 다양한 해상도의 비디오 생성 요구에 적응할 수 있습니다.

성능 지표

테스트 데이터에 따르면 Wan2.2-S2V는 여러 평가 지표에서 좋은 성능을 보입니다:

FID (비디오 품질): 15.66
EFID (표정 진실성): 0.283
CSIM (신원 일관성): 0.677
SSIM (구조적 유사성): 0.734
PSNR (피크 신호 대 잡음비): 20.49

이러한 지표는 Wan2.2-S2V가 비디오 품질, 표정 진실성, 신원 일관성에서 좋은 성능을 보인다는 것을 나타냅니다.

응용 시나리오

Wan2.2-S2V는 다양한 전문 콘텐츠 제작 시나리오에 적합합니다:

영화 제작: 영화 대화 및 내러티브 장면 생성 지원
뮤직 비디오: 오디오를 기반으로 동기화된 음악 공연 비디오 생성 가능
교육 콘텐츠: 교육 비디오의 자동화된 생성 지원
엔터테인먼트 콘텐츠: 다양한 엔터테인먼트 및 공연 비디오 제작에 적용 가능

기술적 특징（테스트 결과）

Wan2.2-S2V의 주요 기술적 특징에는 다음이 포함됩니다:

오디오-비디오 동기화: 오디오 처리 파이프라인을 통해 오디오-비디오 동기화 달성
표정·동작 생성: 표정과 신체 동작을 생성할 수 있음
카메라 제어: 다양한 카메라 각도와 렌즈 언어 지원
다중 해상도 지원: 다양한 해상도의 비디오 생성 요구에 적응

오픈소스 및 체험

오픈소스 주소:

체험 주소:

Wan2.2-S2V는 AI 비디오 생성 분야에 새로운 기술 솔루션을 제공하며, 콘텐츠 제작자에게 오디오 기반 비디오 생성 도구를 제공합니다. 이 모델은 영화 제작, 뮤직 비디오 제작 등의 분야에서 응용 가능성이 있습니다.