Skip to content
Follow me on X
ComfyUI Wiki
ニュースOpenMOSS、MOVA をリリース - オープンソース音声・動画同期生成モデル

OpenMOSS、MOVA をリリース - オープンソース音声・動画同期生成モデル

2026年1月29日、上海創智学院 OpenMOSS チームは模思智能(MOSI)と共同で、エンドツーエンド音声・動画生成モデル MOVA (MOSS Video and Audio) を正式にリリースしました。このモデルは単一推論で動画と音声を同期生成し、カスケードパイプラインの誤差蓄積問題を回避し、リップシンクと環境音響効果において先進的なパフォーマンスを達成しています。

モデルの位置づけ

MOVA は、オープンソース動画生成分野の音声欠如問題を解決するために設計された基盤モデルです。エンドツーエンドのモダリティ融合により、モデルは単一推論プロセスで高忠実度動画と同期音声を同時に生成し、完璧な整合性を確保します。

技術アーキテクチャ

非対称デュアルタワーアーキテクチャ

MOVA は非対称デュアルタワーアーキテクチャを採用し、双方向クロスアテンションメカニズムを通じて事前学習済みの動画タワーと音声タワーを融合します。この設計により、モデルは生成プロセス中に動画と音声の緊密な同期を維持できます。

モデルバージョン

プロジェクトは2つの解像度バージョンをオープンソース化しています:

  • MOVA-360p:高速推論とリソース制約環境に適している
  • MOVA-720p:より高解像度の動画生成を提供

両バージョンとも最大8秒の音声・動画コンテンツの生成をサポートします。

コア機能

ネイティブバイモーダル生成

MOVA は単一推論パスで高忠実度動画と同期音声を生成し、従来のカスケード方式における誤差蓄積と同期問題を回避します。

正確なリップシンク

モデルは多言語リップシンクにおいて優れたパフォーマンスを発揮します。Verse-Bench Set3 評価において:

  • デュアル CFG 有効時、LSE-D スコア 7.094
  • LSE-C スコア 7.452

環境認識音響効果

モデルは動画コンテンツに基づいて対応する環境音響効果を生成できます:

  • 物理的相互作用音(車両エンジン音、風音など)
  • 環境アンビエント音(街路残響、装備摩擦音など)
  • 空間感と質感のある音響フィードバック

パフォーマンス

Verse-Bench 評価

モデルは Verse-Bench ベンチマークで包括的に評価されました:

  • 音声・動画アライメント:全サブセットで評価
  • リップシンク:Set3 で評価
  • 音声品質:Set3 で評価
  • ASR 精度:マルチスピーカーサブセットで評価

人間評価

プロジェクトは、MOVA と既存のオープンソースモデルを比較する Elo スコアと勝率データを提供しています。

推論パフォーマンス

8秒 360p 動画生成の例では、異なるオフロード戦略下のパフォーマンスベンチマーク:

  • VRAM 使用量はオフロード戦略により変化
  • ホスト RAM 使用量
  • ハードウェアステップ時間

実際のパフォーマンスはハードウェア構成により異なる場合があります。

LoRA ファインチューニングサポート

MOVA は完全な LoRA ファインチューニングスクリプトを提供し、複数のトレーニングモードをサポートします:

トレーニング構成(360p、8秒動画)

  • 低リソース LoRA:VRAM 要件を削減
  • 加速 LoRA:トレーニング速度を向上
  • 加速 + FSDP LoRA:分散トレーニングサポート

各モードのピーク使用データには VRAM/GPU、ホスト RAM、ステップ時間が含まれます。

応用シナリオ

MOVA は以下のシナリオに適しています:

  • 音声・動画コンテンツ作成:同期音声付き動画コンテンツの生成
  • リップシンク:動画に正確な音声同期を追加
  • 音響効果生成:動画用の環境認識音響効果の生成
  • 多言語吹き替え:多言語リップシンク生成のサポート

完全オープンソース

MOVA は Apache-2.0 オープンソースライセンスを使用し、以下を完全にリリースします:

  • モデルウェイト:360p と 720p の両バージョン
  • 推論コード:完全な推論実装
  • トレーニングパイプライン:エンドツーエンドトレーニングプロセス
  • LoRA ファインチューニングスクリプト:カスタムファインチューニングのサポート

このフルスタックオープンソース戦略により、コミュニティがモデルを協力的に改善し、音声・動画生成技術を推進できます。

技術的意義

Sora 2 や Veo 3 などのトップ技術がクローズドソースに向かう中、MOVA のオープンソースリリースは、オープンソース音声・動画生成基盤モデルの空白を埋めます。完全なモデルウェイトとトレーニングコードを提供することで、MOVA はコミュニティに音声・動画生成能力を改善およびカスタマイズするための基盤を提供します。

関連リンク