알리바바 통의 만상 Wan2.1 비디오 생성 모델 공식 오픈 소스

알리바바는 2025년 2월 25일에 최신 세대의 비디오 생성 모델 Wan2.1을 공식 오픈 소스화했습니다. 이는 중요한 里程碑입니다. 이 모델은 기존 오픈 소스 모델보다 성능이 뛰어나며, 무엇보다도 경량화 버전이 8GB의显存만으로도 실행할 수 있게 해서 사용 문턱을 낮추었습니다.

핵심 하이라이트

Wan2.1은 여러 측면에서 기술적 돌파를 이루었습니다：

1. 초강력 성능 및 저자원 요구

VBench 순위표에서 86.22%의 총점으로 Sora（84.28%）와 Luma（83.61%）등 모델을 초월했습니다
T2V-1.3B 경량화 버전은 8.19GB의显存만으로도 실행할 수 있으며, 소비자급 그래픽 카드에서 실행할 수 있습니다
8K 화질 비디오 생성을 지원하며, 세부 표현이 영화 수준의 표준에 도달합니다

2. 포괄적인 기능 지원

텍스트에서 비디오로（T2V）、이미지에서 비디오로（I2V）、비디오 편집 등 다양한 작업을 지원합니다
중영 双语 텍스트 특수 효과 생성을 처음으로 도입하여, 동적 자막과 예술 글꼴을 지원합니다
비디오에서 오디오로（V2A）기능을 새로 추가하여, 음향과 동기화된 생성을 구현합니다

3. 혁신적인 기술 구조

선형 노이즈 트랙 Flow Matching 방식으로 훈련합니다
Wan-VAE 인코더는 임의의 길이의 1080P 비디오를 처리할 수 있습니다
3D 인과적 합성 모듈이 물리 모델링 능력을 강화합니다

버전 선택 및 하드웨어 요구 사항

Wan2.1은 서로 다른 시나리오에 맞게 두 가지 버전을 제공합니다：

익스트림 에디션（1.3B）
- 8.19GB의显存만으로도 실행할 수 있습니다
- 개인 개발자에게 적합합니다
- 5초 480P 비디오 생성 시간은 약 4분입니다
프로페셔널 에디션（14B）
- 720P 프로페셔널급 렌더링을 지원합니다
- 영화 산업 애플리케이션에 적합합니다
- 더 풍성한 특수 효과 인터페이스를 제공합니다

오픈 소스 리소스 획득

현재 모든 모델이 Hugging Face 및 ModelScope 플랫폼에서 다운로드할 수 있습니다：

T2V-14B：Hugging Face | ModelScope
I2V-14B-720P：Hugging Face | ModelScope
T2V-1.3B：Hugging Face | ModelScope

적용 시나리오

Wan2.1의 적용 범위는 광범위합니다. 주요 포함 사항은：

개인 창작

짧은 비디오 콘텐츠 생성
예술 창작 보조
이미지 애니메이션화

프로페셔널 제작

영화 특수 효과 제작
광고 창의 디자인
교육 리소스 제작

산업 적용

제품 시연 애니메이션
건축 효과 시연
산업 공정 시각화

미래 전망

Wan2.1의 오픈 소스는 AI 비디오 창작에 새로운 기회를 가져올 것입니다. 특히 저자원 요구 사항으로 인해 더 많은 개인 개발자와 소규모 팀이 AI 비디오 생성의 실제에 참여할 수 있게 됩니다. 이는 기술의 보급 뿐 아니라,整个 산업의 혁신 발전을 촉진할 것입니다.

OpenMOSS, MOVA 출시 - 오픈소스 동영상·오디오 동기화 생성 모델