アリババ、Wan-Animateモデルを発表 - 統合キャラクターアニメーションおよび置換技術

アリババ通義実験室は本日、Wan-Animateを正式に発表しました。これはWan2.2ベースの統合キャラクターアニメーションフレームワークです。このモデルは参照ビデオに基づいてキャラクターの表情と動作を正確に複製し、高忠実度のキャラクタービデオを生成することができ、同時にアニメーションキャラクターを参照ビデオにシームレスに統合して元のキャラクターを置換することをサポートします。

デモビデオ

Demo

コア機能

Wan-Animateは2つの主要機能モードを提供します：

アニメーションモード：キャラクター画像と参照ビデオを入力として、モデルはビデオ内のキャラクターの表情と動作を正確に複製してキャラクターアニメーションを制作し、高品質のキャラクタービデオを生成します。

置換モード：アニメーションキャラクターを参照ビデオに統合して元のキャラクターを置換し、同時にシーンの照明と色調を複製して環境とのシームレスな融合を実現します。

技術革新のポイント

統合入力フレームワーク

Wan-AnimateはWan-I2Vモデルをベースに構築され、修正された入力パラダイムを採用して参照条件と生成領域を区別します。この設計は参照画像注入、時系列フレーム誘導、モード選択を一般的な記号表現に統一し、トレーニングプロセスにおける分布シフトを効果的に削減します。

全体制御戦略

モデルは制御信号を身体動作と facial 表情の2つの部分に分解します：

身体制御：スケルトンベースの表現方式を採用し、空間アライメントを通じて初期ノイズ潜在変数に注入します
顔面制御：参照ビデオの元の顔面画像を直接駆動信号として使用し、潜在ベクトルとしてエンコードして表情情報と身分属性を分離します

環境照明適応

キャラクター置換時の環境一貫性を強化するため、チームは補助的な再照明LoRAモジュールを開発しました。このモジュールはキャラクター外観一貫性を維持しながら適切な環境照明と色調を適用し、より自然なシーン融合効果を実現します。

パフォーマンス

実験結果は、Wan-Animateが複数の評価次元で現在の最高水準に達したことを示しています：

SSIM、LPIPS、FVDなどの定量指標で既存のオープンソースキャラクターアニメーションフレームワークを上回ります
Runway Act-twoおよびBytedance DreamActor-M1などの商用ソリューションとの人間評価比較で優れた結果を示しました
任意の出力解像度をサポートし、置換モードで参照ビデオと同じアスペクト比を維持できます

応用シーン

Wan-Animateは複数の分野で広範な応用可能性を持っています：

映像制作：クラシック演技シーンの再現、クロススタイルキャラクター変換の実現
広告クリエイティブ：キャラクター置換および商業写真編集
ショートビデオコンテンツ：ダンス動作複製およびダイナミックレンズモーション生成
デジタルアバター：パーソナライズドキャラクターアニメーション作成

技術仕様

現在のバージョンは以下の入力仕様をサポートします：

ビデオファイル：200MB未満、解像度最小辺200ピクセル超、最大辺2048ピクセル未満
ビデオ長：2-30秒、アスペクト比1:3～3:1
画像ファイル：5MB未満、jpg、png、jpeg、webp、bmp形式をサポート

OpenMOSS、MOVA をリリース - オープンソース音声・動画同期生成モデル