Wan2.2-S2V:音声駆動型動画生成モデルがリリース
2025/08/26
Wan2.2-S2V:音声駆動型動画生成モデルがリリース
Wan2.2-S2Vは、静止画と音声入力を動画コンテンツに変換できるAI動画生成モデルです。このモデルは単一生成で分単位の動画を生成でき、デジタルヒューマンライブ配信、映像制作、教育業界の動画制作に新しいソリューションを提供します。
このモデルは映画・テレビの応用シーンで良好な性能を示し、表情、身体動作、カメラワークを生成できます。全身と半身のキャラクター生成をサポートし、対話、歌唱、演技などの様々なコンテンツ制作ニーズを完了できます。
技術的特徴
画像+音声=動画生成 Wan2.2-S2Vは画像と音声を組み合わせた入力方式を使用し、静止画と音声クリップを通じて動画コンテンツを生成します。このモデルは実在人物、アニメ、動物、デジタルヒューマンなどの画像タイプをサポートし、ポートレート、半身、全身などのフォーマットをサポートします。音声クリップをアップロード後、モデルは画像内の主要被写体に話す、歌う、演技するなどの動作を実行させることができます。
音声駆動型動画生成 このモデルは音声入力に基づいて動画を生成でき、対話とナラティブシーンの生成をサポートします。音声入力を通じて、モデルはキャラクターのリップシンク、表情、動作を制御し、音声-動画の同期を実現します。
テキスト制御機能 Wan2.2-S2Vはテキスト制御もサポートし、Prompt入力を通じて動画シーンの制御を可能にし、動画被写体の動作と背景の変化を可能にします。例えば、ピアノを弾いている人物の写真、歌、テキスト説明をアップロードすると、モデルはピアノ演奏動画を生成でき、キャラクターの一貫性を元の画像と保持し、表情と口の動作を音声と同期させ、指の動作も音声のリズムに合わせることができます。
技術アーキテクチャ
Wan2.2-S2Vは通義万象動画生成基盤モデルに基づいており、テキスト誘導のグローバルモーション制御と音声駆動のローカルモーション制御を組み合わせて、音声駆動型動画生成を実現します。モデルはAdaINとCrossAttentionの制御メカニズムを採用し、音声制御効果を向上させます。
長動画生成をサポートするため、Wan2.2-S2Vは階層的フレーム圧縮技術を使用して履歴フレームのトークン数を削減し、motion frames(履歴参照フレーム)を数フレームから73フレームに拡張し、安定した長動画生成を実現します。
訓練では、チームは60万以上の音声-動画セグメントのデータセットを構築し、混合並列訓練を使用して全パラメータ訓練を行いました。モデルはマルチ解像度訓練と推論をサポートし、異なる解像度の動画生成要件に適応できます。
性能指標
テストデータによると、Wan2.2-S2Vは複数の評価指標で良好な性能を示しています:
- FID(動画品質): 15.66
- EFID(表情の真実性): 0.283
- CSIM(アイデンティティ一貫性): 0.677
- SSIM(構造的類似性): 0.734
- PSNR(ピーク信号対雑音比): 20.49
これらの指標は、Wan2.2-S2Vが動画品質、表情の真実性、アイデンティティ一貫性で良好な性能を示していることを示しています。
応用シーン
Wan2.2-S2Vは様々な専門コンテンツ制作シーンに適しています:
- 映像制作: 映画の対話とナラティブシーンの生成をサポート
- ミュージックビデオ: 音声に基づいて同期した音楽パフォーマンス動画を生成可能
- 教育コンテンツ: 教育動画の自動生成をサポート
- エンターテイメントコンテンツ: 様々なエンターテイメントとパフォーマンス動画制作に適用可能
技術的特徴
Wan2.2-S2Vの主要な技術的特徴には以下が含まれます:
- 音声-動画同期: 音声処理パイプラインを通じて音声-動画同期を実現
- 表情・動作生成: 表情と身体動作を生成可能
- カメラ制御: 異なるカメラアングルとレンズ言語をサポート
- マルチ解像度サポート: 異なる解像度の動画生成要件に適応
オープンソースと体験
オープンソースアドレス:
体験アドレス:
Wan2.2-S2VはAI動画生成分野に新しい技術ソリューションを提供し、コンテンツクリエイターに音声駆動型動画生成のツールを提供します。このモデルは映像制作、ミュージックビデオ制作などの分野で応用可能性があります。