알리바바 통의 만상 비디오 생성 모델 WanX 2.1이 오픈 소스로 출시될 예정
알리바바는 2025년 2월 21일에 최신 세대의 비디오 생성 모델인 WanX 2.1을 2분기에 완전히 오픈 소스로 출시할 계획이라고 발표했습니다. 이는 모델, 훈련 데이터 세트 및 경량화된 도구 패키지를 포함합니다. 이 소식은 AI 커뮤니티에서 널리 주목을 받았습니다.
기술 혁신 및 돌파
WanX 2.1은 여러 측면에서 두드러진 기술 돌파를 이루었습니다:
다모달 융합 및 고속 생성
- 1080p 고해상도 비디오, 동적 자막 및 다국어 더빙의 동시 생성을 지원
- VAE(변분 자가 인코더) 및 DiT(탈노이즈 확산 트랜스포머) 구조를 채택
- 생성 효율이 1분당 비디오 15초로 향상, 이전 세대보다 4배 빠른 속도
- 물리 법칙을 정확하게 모사, 이를 통해 인물의 신체 움직임 및 유체 효과를 포함
예술 스타일 및 특수 효과 시스템
- 100여 가지 예술 스타일 템플릿을 내장, 이를 통해 유화 및 사이버펑크 스타일 등을 지원
- 중영문 텍스트 특수 효과 생성 기능을 최초로 도입, 이를 통해 동적 자막 및 포스터 글꼴 생성을 지원
- 초장기 위 컨텍스트 훈련을 통해 텍스트 지시와 비디오 생성의 정확한 대응을 보장
성능 평가
권위 있는 VBench 평가 순위에서, WanX 2.1은 84.7%의 총점으로 1위를 차지했습니다. 다음 차원에서 특히 두드러진 성능을 보였습니다:
- 동적 정도 표현
- 공간 관계 처리
- 다중 객체 상호 작용 능력
적용 시나리오
WanX 2.1의 적용 범위는 넓습니다. 주요 포함 사항은 다음과 같습니다:
상업적 창작
- 단편 비디오 콘텐츠 대량 생성
- 제품 홍보 애니메이션 맞춤
교육 문화
- 몰입식 교육 비디오 제작
- 역사 이미지 복원 및 재구성
영화 광고
- 영화급 운용镜 효과
- 전문 특수 효과 글꼴 생성
- 광고 창의 디자인
사용 및 획득
현재, 개인 사용자는 통의 만상 공식 홈페이지를 통해 무료로 온라인 서비스를 체험할 수 있습니다. 기업 사용자는 알리클라우드 Model Studio 플랫폼을 통해 API 호출을 진행할 수 있습니다.
특별히 강조해야 할 점은, 모델이 아직 오픈 소스가 아니지만 알리바바는 2025년 2분기에 모델 소스 코드, 훈련 데이터 세트 및 관련 도구 패키지를 오픈 소스로 공개할 계획입니다. 이는 AI 비디오 생성 분야에 새로운 발전 기회를 가져올 것입니다.
미래 전망
WanX 2.1의 오픈 소스는 AI 비디오 창작 생태계에 중요한 추동력을 가져올 것입니다. 특히 교육 자원 제작, 문화 유산 보호 등 공익 분야에서 그 적용 전망이 넓습니다. 그러나 사용자들은 아직도 일부 개선이 필요한 점을 발견했습니다. 예를 들어, 중국어 텍스트 생성이 때때로 작은 오류를 발생시키는 문제가 있습니다. 이러한 문제들은 향후 버전에서 개선되길 기대합니다.