알리바바 통의 만상 Wan2.1 비디오 생성 모델 공식 오픈 소스
알리바바는 2025년 2월 25일에 최신 세대의 비디오 생성 모델 Wan2.1을 공식 오픈 소스화했습니다. 이는 중요한 里程碑입니다. 이 모델은 기존 오픈 소스 모델보다 성능이 뛰어나며, 무엇보다도 경량화 버전이 8GB의显存만으로도 실행할 수 있게 해서 사용 문턱을 낮추었습니다.
핵심 하이라이트
Wan2.1은 여러 측면에서 기술적 돌파를 이루었습니다:
1. 초강력 성능 및 저자원 요구
- VBench 순위표에서 86.22%의 총점으로 Sora(84.28%)와 Luma(83.61%)등 모델을 초월했습니다
- T2V-1.3B 경량화 버전은 8.19GB의显存만으로도 실행할 수 있으며, 소비자급 그래픽 카드에서 실행할 수 있습니다
- 8K 화질 비디오 생성을 지원하며, 세부 표현이 영화 수준의 표준에 도달합니다
2. 포괄적인 기능 지원
- 텍스트에서 비디오로(T2V)、이미지에서 비디오로(I2V)、비디오 편집 등 다양한 작업을 지원합니다
- 중영 双语 텍스트 특수 효과 생성을 처음으로 도입하여, 동적 자막과 예술 글꼴을 지원합니다
- 비디오에서 오디오로(V2A)기능을 새로 추가하여, 음향과 동기화된 생성을 구현합니다
3. 혁신적인 기술 구조
- 선형 노이즈 트랙 Flow Matching 방식으로 훈련합니다
- Wan-VAE 인코더는 임의의 길이의 1080P 비디오를 처리할 수 있습니다
- 3D 인과적 합성 모듈이 물리 모델링 능력을 강화합니다
버전 선택 및 하드웨어 요구 사항
Wan2.1은 서로 다른 시나리오에 맞게 두 가지 버전을 제공합니다:
-
익스트림 에디션(1.3B)
- 8.19GB의显存만으로도 실행할 수 있습니다
- 개인 개발자에게 적합합니다
- 5초 480P 비디오 생성 시간은 약 4분입니다
-
프로페셔널 에디션(14B)
- 720P 프로페셔널급 렌더링을 지원합니다
- 영화 산업 애플리케이션에 적합합니다
- 더 풍성한 특수 효과 인터페이스를 제공합니다
오픈 소스 리소스 획득
현재 모든 모델이 Hugging Face 및 ModelScope 플랫폼에서 다운로드할 수 있습니다:
- T2V-14B:Hugging Face | ModelScope
- I2V-14B-720P:Hugging Face | ModelScope
- T2V-1.3B:Hugging Face | ModelScope
적용 시나리오
Wan2.1의 적용 범위는 광범위합니다. 주요 포함 사항은:
개인 창작
- 짧은 비디오 콘텐츠 생성
- 예술 창작 보조
- 이미지 애니메이션화
프로페셔널 제작
- 영화 특수 효과 제작
- 광고 창의 디자인
- 교육 리소스 제작
산업 적용
- 제품 시연 애니메이션
- 건축 효과 시연
- 산업 공정 시각화
미래 전망
Wan2.1의 오픈 소스는 AI 비디오 창작에 새로운 기회를 가져올 것입니다. 특히 저자원 요구 사항으로 인해 더 많은 개인 개발자와 소규모 팀이 AI 비디오 생성의 실제에 참여할 수 있게 됩니다. 이는 기술의 보급 뿐 아니라,整个 산업의 혁신 발전을 촉진할 것입니다.