Skip to content
サポーターになる より良い ComfyUI ナレッジベースの構築を支援する
ニュースアリババの万相 Wan2.1 ビデオ生成モデルが正式にオープンソースに

アリババの万相 Wan2.1 ビデオ生成モデルが正式にオープンソースに

アリババは2025年2月25日、最新のビデオ生成モデルである Wan2.1 を正式にオープンソースにした。これは重要なマイルストーンである。このモデルは既存のオープンソースモデルを性能で超えるだけでなく、軽量版がわずか 8GB のビデオメモリで動作するため、使用の敷居を大幅に下げる。

主なハイライト

Wan2.1 は複数の面で顕著な技術的ブレイクスルーを達成した:

1. 優れた性能と低いリソース要件

  • VBench ランキングで 86.22% の総スコアで Sora(84.28%)と Luma(83.61%)などを超えた
  • T2V-1.3B の軽量版はわずか 8.19GB のビデオメモリで動作し、消費者向けのグラフィックカードで動作可能
  • 8K 画質のビデオ生成をサポートし、詳細な表現が映画の標準に達する

2. 広範囲の機能サポート

  • テキストからビデオ(T2V)、画像からビデオ(I2V)、ビデオ編集など複数のタスクをサポート
  • 中英双語のテキストエフェクト生成を初めて導入し、動的字幕とアーティストフォントをサポート
  • ビデオからオーディオ(V2A)機能を追加し、音と映像の同期生成を実現

3. 革新的技術アーキテクチャ

  • 線形ノイズ軌跡 Flow Matching パラダイムで訓練
  • Wan-VAE エンコーダは1080P 解像度のビデオを任意の長さで処理可能
  • 3D 因果的畳み込みモジュールが物理シミュレーションの能力を強化

バージョン選択とハードウェア要件

Wan2.1 は異なるシナリオに適応するために二つのバージョンを提供:

  1. 高速版(1.3B)

    • わずか 8.19GB のビデオメモリが必要
    • 個人開発者向け
    • 5秒の 480P ビデオ生成時間は約4分
  2. プロフェッショナル版(14B)

    • 720P のプロフェッショナルレベルのレンダリングをサポート
    • 映画テレビ産業アプリケーション向け
    • より豊富な特殊効果インターフェースを提供

オープンソースリソースの取得

現在、すべてのモデルが Hugging Face と ModelScope のプラットフォームでダウンロード可能:

適用シナリオ

Wan2.1 の適用範囲は広く、主に以下を含む:

個人創作

  • 短いビデオコンテンツの生成
  • 芸術創作の補助
  • 画像のアニメーション化

プロフェッショナル制作

  • 映画テレビ特効の制作
  • 広告のクリエイティブデザイン
  • 教育リソースの制作

産業応用

  • 製品展示のアニメーション
  • 建築のエフェクトデモンストレーション
  • 産業プロセスの可視化

将来の展望

Wan2.1 のオープンソース化は AI ビデオ創作に新たな機会をもたらす。特にその低いハードウェア要件は、より多くの個人開発者と小型チームが AI ビデオ生成の実践に参加できるようにする。これは技術の普及だけでなく、全体の産業のイノベーション発展を促進する。

関連リンク