StepFunがオープンソースのStep-Video-T2Vを発表：300億パラメータのテキストから動画生成モデル

StepFunは2025年2月17日に最新のテキストから動画生成モデルStep-Video-T2Vを正式にオープンソース化しました。このモデルは300億パラメータを持ち、最大204フレームの高品質動画を生成することができます。これは現在のオープンソースコミュニティの中で、パラメータ数が最も多いテキストから動画生成モデルの一つです。

モデルの特徴

超大規模パラメータ: 300億パラメータを持ち、最大204フレームの動画生成をサポート
高圧縮比: 深層圧縮VAE技術を採用し、16x16の空間圧縮と8xの時間圧縮比を実現
バイリンガルサポート: 中英バイリンガルテキストエンコーダーを内蔵し、中国語のプロンプトに完全対応
オープンソースライセンス: MITライセンスに基づいてオープンソース化され、商業利用もサポート
最適化技術: Direct Preference Optimization (DPO)技術を採用し、動画生成の品質を向上

ハードウェア要件

公式には、モデルを実行するために80GBのVRAMを搭載したGPUの使用が推奨されています。具体的なハードウェア要件は以下の通りです：

544px992px204フレーム動画生成：77.64GBのVRAMが必要
544px992px136フレーム動画生成：72.48GBのVRAMが必要

オンライン体験

現在、Step-Video-T2Vは跃问视频平台で公開体験が可能です。プラットフォームは8秒間のスムーズな動画生成をサポートしていますが、待機が必要な場合があります。

オープンソースアドレス

モデルダウンロード：Hugging Face
技術報告：arXiv:2502.10248

StepFunチームは、このモデルのコードがHugging Face公式のDiffusersライブラリに統合され、今後もモデルの性能と使用体験が継続的に最適化されると述べています。ローカルデプロイを希望するユーザーには、詳細なインストールと使用文書も提供されています。