PUSA V1.0: 低コストで高性能な動画生成モデルがリリース
2025年7月16日、PUSA V1.0が正式にリリースされました。最新のWan2.1-T2V-14Bをベースに、ベクトル化タイムステップ適応(VTA)技術を導入。元のデータセットの1/2500、トレーニングコストの1/200、推論ステップの1/5で済むにもかかわらず、Wan-I2V-14Bのパフォーマンスを上回ります。
PUSA V1.0とは?
PUSA V1.0は、新しいベクトル化タイムステップ適応(VTA)技術を特徴とするオープンソースAI動画生成モデルです。単一のタイムステップを使用する従来の動画拡散モデルとは異なり、PUSAは各フレームのノイズをより詳細に制御でき、より高品質な生成とより豊かなマルチタスク機能を実現します。
主な特徴と革新性
- ベクトル化タイムステップ適応(VTA): スカラータイムステップの制限を打破し、フレームレベルでの柔軟な制御を可能に。
- 高効率: わずか3,860の動画サンプル、約500ドルのトレーニングコスト、大幅に少ない推論ステップで実現。
- マルチタスクサポート: 画像から動画(I2V)、キーフレーム生成、動画補完、動画拡張、テキストから動画(T2V)、動画トランジションなどをサポート。
- 非破壊的ファインチューニング: LoRAファインチューニングで新機能を追加しながら、元のモデルの機能をすべて保持し、高い互換性を確保。
- オープンソース: モデルの重み、トレーニングデータ、推論、トレーニングコードがコミュニティと産業研究・応用のために完全公開。
Wan-I2Vとの比較
PUSA V1.0は、はるかに少ないトレーニングリソースとデータでWan-I2V-14Bのパフォーマンスを上回ります。Wan-I2Vは画像から動画への変換のみをサポートしますが、PUSA V1.0は複数のタスクを統合し、VBench-I2V評価でより高いスコア(87.32%対86.86%)を獲得しています。
応用シナリオ
- AIクリエイティブ動画生成: 画像やテキストから高品質な短編動画を素早く生成。
- 動画補完と拡張: キーフレームの補完を含む、既存動画の補完や拡張。
- マルチフレームキーフレーム補間: 複数のキーフレームからスムーズな動画トランジションを生成。
- 教育、エンターテインメント、広告: クリエイター、教育者、広告主向けの効率的な動画生成ツールを提供。
ビジュアルデモ
以下はPUSA V0.5のアニメーション例です。V1.0ではマルチタスク機能と生成品質がさらに向上しています:
PUSA V1.0のリリースにより、動画生成技術がより身近で効率的なものになりました。革新的なVTA手法は品質を向上させるだけでなく、開発と応用のハードルを大幅に下げています。
関連リンク
- PUSA V1.0モデルと紹介(Hugging Face)
- PUSA V1.0トレーニングデータセット(Hugging Face)
- 公式プロジェクトホームページ
- 技術レポート(PDF)
- arXiv論文:2410.03160