アリババの万相2.1ビデオ生成モデルがオープンソースになる

アリババは2025年2月21日、最新のビデオ生成モデルである万相2.1が第二四半期に完全にオープンソースになることを発表した。これにはモデル、トレーニングデータセット、軽量ツールパックなどが含まれる。この発表はAIコミュニティ全体に広がる注目を集めた。

技術的イノベーションとブレイクスルー

万相2.1は複数の面で技術的なブレイクスルーを達成した：

多モーダル融合と高効率生成

1080pのHDビデオ、動的字幕、多言語音声の同時生成をサポート
VAE（変分自編碼器）とDiT（去噪拡散トランスフォーマー）アーキテクチャを採用
生成効率が向上し、1分間のビデオをわずか15秒で生成可能、前世代より4倍の速度向上
物理法則の精確なシミュレーション、包括して人物の肢体運動や流体効果

アートスタイルと特殊効果システム

100種以上のアートスタイルテンプレートを内蔵、油絵やサイバーパンクなどのスタイルを含む
英文と中国語のテキスト特殊効果生成能力を世界で初めて実現、動的字幕とポスター字体生成をサポート
超長上下文トレーニングによってテキスト指令とビデオ生成の精確な対応を確保

パフォーマンス評価

権威あるVBench評価ランキングで、万相2.1は84.7%の総スコアで首位に立っている。以下の次元で特に優れている：

動的度の表現
空間関係処理
多オブジェクトの相互作用能力

適用シーン

万相2.1の適用範囲は広範囲にわたり、主に以下を含む：

商業創作

短いビデオコンテンツの大量生成
製品宣伝アニメーションのカスタマイズ

教育文化

沈浸型教育ビデオの制作
歴史映像の修復と再構築

映画広告

映画級の運鏡効果
専門的な特殊効果フォントの生成
広告創造デザイン

使用と入手

現在、個人ユーザーは通義万相公式サイトを通じて無料でオンラインサービスを体験できます。企業ユーザーは阿里雲Model Studioプラットフォームを通じてAPIを呼び出すことができます。

特に注意すべきは、モデルがまだオープンソースになっていないが、アリババは2025年第二四半期にモデルソースコード、トレーニングデータセット、関連ツールパックをオープンソースにすることを約束しています。これはAIビデオ生成分野に新たな発展の機会をもたらすことになる。

未来の展望

万相2.1のオープンソース化はAIビデオ創作エコシステムに重要な推進力をもたらすことになる。特に教育資源の作成や文化遺産の保護など、公益的な分野でのその適用前景は広い。ただし、ユーザーは中国語テキスト生成がまれに小さなエラーを生じるなどの改善が必要な点を発見しています。これらの問題は将来のバージョンで改善される予定です。

OpenMOSS、MOVA をリリース - オープンソース音声・動画同期生成モデル