アリババの万相2.1ビデオ生成モデルがオープンソースになる
アリババは2025年2月21日、最新のビデオ生成モデルである万相2.1が第二四半期に完全にオープンソースになることを発表した。これにはモデル、トレーニングデータセット、軽量ツールパックなどが含まれる。この発表はAIコミュニティ全体に広がる注目を集めた。
技術的イノベーションとブレイクスルー
万相2.1は複数の面で技術的なブレイクスルーを達成した:
多モーダル融合と高効率生成
- 1080pのHDビデオ、動的字幕、多言語音声の同時生成をサポート
- VAE(変分自編碼器)とDiT(去噪拡散トランスフォーマー)アーキテクチャを採用
- 生成効率が向上し、1分間のビデオをわずか15秒で生成可能、前世代より4倍の速度向上
- 物理法則の精確なシミュレーション、包括して人物の肢体運動や流体効果
アートスタイルと特殊効果システム
- 100種以上のアートスタイルテンプレートを内蔵、油絵やサイバーパンクなどのスタイルを含む
- 英文と中国語のテキスト特殊効果生成能力を世界で初めて実現、動的字幕とポスター字体生成をサポート
- 超長上下文トレーニングによってテキスト指令とビデオ生成の精確な対応を確保
パフォーマンス評価
権威あるVBench評価ランキングで、万相2.1は84.7%の総スコアで首位に立っている。以下の次元で特に優れている:
- 動的度の表現
- 空間関係処理
- 多オブジェクトの相互作用能力
適用シーン
万相2.1の適用範囲は広範囲にわたり、主に以下を含む:
商業創作
- 短いビデオコンテンツの大量生成
- 製品宣伝アニメーションのカスタマイズ
教育文化
- 沈浸型教育ビデオの制作
- 歴史映像の修復と再構築
映画広告
- 映画級の運鏡効果
- 専門的な特殊効果フォントの生成
- 広告創造デザイン
使用と入手
現在、個人ユーザーは通義万相公式サイトを通じて無料でオンラインサービスを体験できます。企業ユーザーは阿里雲Model Studioプラットフォームを通じてAPIを呼び出すことができます。
特に注意すべきは、モデルがまだオープンソースになっていないが、アリババは2025年第二四半期にモデルソースコード、トレーニングデータセット、関連ツールパックをオープンソースにすることを約束しています。これはAIビデオ生成分野に新たな発展の機会をもたらすことになる。
未来の展望
万相2.1のオープンソース化はAIビデオ創作エコシステムに重要な推進力をもたらすことになる。特に教育資源の作成や文化遺産の保護など、公益的な分野でのその適用前景は広い。ただし、ユーザーは中国語テキスト生成がまれに小さなエラーを生じるなどの改善が必要な点を発見しています。これらの問題は将来のバージョンで改善される予定です。