TurboDiffusion、動画生成加速フレームワークをリリース

清華大学の機械学習チームは最近、TurboDiffusionをオープンソース化しました。これは動画品質を維持しながら動画拡散モデルの生成速度を大幅に向上させる動画生成加速フレームワークです。

加速性能

公式テストによると、TurboDiffusionはRTX 5090グラフィックカード単体で100から205倍のエンドツーエンド拡散生成加速を実現します。

1.3Bモデルの加速性能

1.3BパラメータのWan2.1モデルにおいて、TurboDiffusionの性能は特に優れています：

元のモデル: エンドツーエンド生成時間約166秒
TurboDiffusion: わずか1.8秒で完了、約92倍の加速を実現

これは、元々3分近くかかっていた動画生成が、今では2秒未満で完了できることを意味します。

14Bモデルの加速性能（480p解像度）

より大規模な14Bパラメータモデルでは、加速効果も同様に顕著です：

元のモデル: エンドツーエンド生成時間約1635秒（27分以上）
FastVideo: 約23.2秒
TurboDiffusion: わずか9.4秒で完了、元のモデルと比較して約174倍の加速を実現

他の加速ソリューションと比較して、TurboDiffusionは明確な速度優位性を維持し、FastVideoより約2.5倍高速です。

動画品質の保持

重要なことは、生成速度の劇的な向上にもかかわらず、TurboDiffusionが元のモデルに近い動画品質を維持していることです。公式の比較デモンストレーションは、加速された動画が画像の詳細、動きの滑らかさ、全体的な品質において元々生成された動画との一貫性を保っていることを示しています。

技術的特徴

TurboDiffusionは、スパース線形注意（SLA）メカニズムやSageAttention量子化技術を含む複数の最適化技術を採用して加速を実現しています。これらの技術は動画品質に大きく影響することなく計算負荷を大幅に削減し、生成速度を向上させます。

フレームワークはWan2.1モデルに基づく訓練と推論をサポートし、FSDP2、Ulysses CP、選択的活性化チェックポイントなどの技術を含む完全な訓練コードとインフラストラクチャサポートを提供します。

適用シナリオ

このフレームワークは主に迅速な動画生成を必要とするアプリケーションシナリオを対象とし、ユーザーが動画生成時間を大幅に短縮し、作業効率を向上させるのに役立ちます。

実際のアプリケーションでは、TurboDiffusionは以下のシナリオでユーザー体験を大幅に改善できます：

クリエイティブプレビュー: 複数バージョンを迅速に生成してクリエイティブな比較と選択を行う
リアルタイムフィードバック: パラメータ調整時にほぼリアルタイムの視覚的フィードバックを得る
バッチ生成: 同じ時間でより多くの動画コンテンツを生成
リソース制約環境: 単一カードデバイスでも効率的な動画生成を実現

さらに、フレームワークは元のモデルに近い動画品質を維持し、高い生成品質を要求するユーザーに適しています。

オープンソース情報

TurboDiffusionはApache-2.0ライセンスの下でオープンソース化されており、コードとドキュメントはGitHubで公開されています。開発チームは、並列計算の最適化、vLLM-Omniの統合、より多くの動画生成モデルのサポートなど、より多くの機能を積極的に開発していると述べています。

デモンストレーション効果の確認

TurboDiffusionはGitHubリポジトリで、異なるシナリオや異なるモデル規模のテスト結果を含む複数の実際の生成ケースの比較デモンストレーションを提供しています。これらのデモンストレーションは加速前後の時間比較と動画品質比較を直感的に示しており、ユーザーはプロジェクトホームページで完全なデモンストレーション効果を確認できます。

OpenMOSS、MOVA をリリース - オープンソース音声・動画同期生成モデル