アリババの万相 Wan2.1 ビデオ生成モデルが正式にオープンソースに
アリババは2025年2月25日、最新のビデオ生成モデルである Wan2.1 を正式にオープンソースにした。これは重要なマイルストーンである。このモデルは既存のオープンソースモデルを性能で超えるだけでなく、軽量版がわずか 8GB のビデオメモリで動作するため、使用の敷居を大幅に下げる。
主なハイライト
Wan2.1 は複数の面で顕著な技術的ブレイクスルーを達成した:
1. 優れた性能と低いリソース要件
- VBench ランキングで 86.22% の総スコアで Sora(84.28%)と Luma(83.61%)などを超えた
- T2V-1.3B の軽量版はわずか 8.19GB のビデオメモリで動作し、消費者向けのグラフィックカードで動作可能
- 8K 画質のビデオ生成をサポートし、詳細な表現が映画の標準に達する
2. 広範囲の機能サポート
- テキストからビデオ(T2V)、画像からビデオ(I2V)、ビデオ編集など複数のタスクをサポート
- 中英双語のテキストエフェクト生成を初めて導入し、動的字幕とアーティストフォントをサポート
- ビデオからオーディオ(V2A)機能を追加し、音と映像の同期生成を実現
3. 革新的技術アーキテクチャ
- 線形ノイズ軌跡 Flow Matching パラダイムで訓練
- Wan-VAE エンコーダは1080P 解像度のビデオを任意の長さで処理可能
- 3D 因果的畳み込みモジュールが物理シミュレーションの能力を強化
バージョン選択とハードウェア要件
Wan2.1 は異なるシナリオに適応するために二つのバージョンを提供:
-
高速版(1.3B)
- わずか 8.19GB のビデオメモリが必要
- 個人開発者向け
- 5秒の 480P ビデオ生成時間は約4分
-
プロフェッショナル版(14B)
- 720P のプロフェッショナルレベルのレンダリングをサポート
- 映画テレビ産業アプリケーション向け
- より豊富な特殊効果インターフェースを提供
オープンソースリソースの取得
現在、すべてのモデルが Hugging Face と ModelScope のプラットフォームでダウンロード可能:
- T2V-14B:Hugging Face | ModelScope
- I2V-14B-720P:Hugging Face | ModelScope
- T2V-1.3B:Hugging Face | ModelScope
適用シナリオ
Wan2.1 の適用範囲は広く、主に以下を含む:
個人創作
- 短いビデオコンテンツの生成
- 芸術創作の補助
- 画像のアニメーション化
プロフェッショナル制作
- 映画テレビ特効の制作
- 広告のクリエイティブデザイン
- 教育リソースの制作
産業応用
- 製品展示のアニメーション
- 建築のエフェクトデモンストレーション
- 産業プロセスの可視化
将来の展望
Wan2.1 のオープンソース化は AI ビデオ創作に新たな機会をもたらす。特にその低いハードウェア要件は、より多くの個人開発者と小型チームが AI ビデオ生成の実践に参加できるようにする。これは技術の普及だけでなく、全体の産業のイノベーション発展を促進する。