알리바바, Wan-Animate 모델 출시 - 통합 캐릭터 애니메이션 및 교체 기술

알리바바 통의 실험이 오늘 Wan-Animate를 공식 출시했습니다. 이는 Wan2.2 기반의 통합 캐릭터 애니메이션 프레임워크입니다. 이 모델은 참조 비디오를 기반으로 캐릭터의 표정과 동작을 정확하게 복제하여 고해상도의 캐릭터 비디오를 생성할 수 있으며, 동시에 애니메이션 캐릭터를 참조 비디오에 원활하게 통합하여 원본 캐릭터를 교체하는 기능도 지원합니다.

데모 비디오

Demo

핵심 기능

Wan-Animate는 두 가지 주요 기능 모드를 제공합니다:

애니메이션 모드: 캐릭터 이미지와 참조 비디오를 입력으로 받으면, 모델은 비디오의 캐릭터 표정과 동작을 정확하게 복제하여 고품질의 캐릭터 비디오를 생성합니다.

교체 모드: 애니메이션 캐릭터를 참조 비디오에 통합하여 원본 캐릭터를 교체하고, 동시에 장면의 조명과 색조를 복제하여 환경과의 완벽한 융합을 실현합니다.

기술 혁신 포인트

통합 입력 프레임워크

Wan-Animate는 Wan-I2V 모델을 기반으로 구축되었으며, 수정된 입력 패러다임을 사용하여 참조 조건과 생성 영역을 구분합니다. 이 설계는 참조 이미지 주입, 시간적 프레임 유도, 모드 선택을 일반적인 기호 표현으로 통합하여 훈련 과정에서의 분포 편차를 효과적으로 줄입니다.

전체 제어 전략

모델은 제어 신호를 신체 동작과 얼굴 표정 두 부분으로 분해합니다:

신체 제어: 골격 기반 표현 방식을 사용하여 공간 정렬을 통해 초기 노이즈 잠재 변수에 주입합니다
얼굴 제어: 참조 비디오의 원시 얼굴 이미지를 직접 구동 신호로 사용하여 잠재 벡터로 인코딩하여 표정 정보와 신원 속성을 분리합니다

환경 조명 적응

캐릭터 교체 시 환경 일관성을 강화하기 위해 팀은 보조 재조명 LoRA 모듈을 개발했습니다. 이 모듈은 캐릭터 외관 일관성을 유지하면서 적절한 환경 조명과 색조를 적용하여 더 자연스러운 장면 융합 효과를 실현합니다.

성능 평가

실험 결과, Wan-Animate는 여러 평가 차원에서 현재 최고 수준의 성능을 달성했습니다:

SSIM, LPIPS, FVD 등의 정량적 지표에서 기존 오픈소스 캐릭터 애니메이션 프레임워크를 능가합니다
Runway Act-two 및 Bytedance DreamActor-M1 등의 상용 솔루션과의 인간 평가 대조에서 우수한 성과를 보였습니다
임의의 출력 해상도를 지원하며, 교체 모드에서 참조 비디오와 동일한 종횡비를 유지할 수 있습니다

응용 시나리오

Wan-Animate는 여러 분야에서 광범위한 응용 가능성을 가지고 있습니다:

영화 및 TV 제작: 클래식 연기 장면 재현, 스타일 간 캐릭터 변환 구현
광고 창의: 캐릭터 교체 및 상업 사진 편집
숏폼 비디오 콘텐츠: 댄스 동작 복제 및 다이내믹 카메라 모션 생성
디지털 아바타: 개인화된 캐릭터 애니메이션 생성

기술 사양

현재 버전은 다음 입력 사양을 지원합니다:

비디오 파일: 200MB 미만, 최소 변 해상도 200픽셀 초과, 최대 변 2048픽셀 미만
비디오 길이: 2-30초, 종횡비 1:3~3:1
이미지 파일: 5MB 미만, jpg, png, jpeg, webp, bmp 형식 지원