ByteDanceがSeaweed-7Bを発表:コスト効率の高い動画生成基盤モデル
ByteDanceは最近、動画生成分野における重要なブレークスルーを発表しました—Seaweed-7Bは、わずか70億パラメータながら卓越した性能を持つ動画生成基盤モデルです。公式技術レポートによると、このモデルは主要タスクにおいてパラメータ数が2倍のメインストリームモデルを上回る性能を発揮し、トレーニングコストは競合他社の約3分の1で済みます。
画期的な性能と効率性
Seaweed-7B(「Seed-Video」に由来)は、複数の重要指標で印象的な性能を示しています:
- パラメータ規模:わずか70億パラメータで、140億パラメータのWan 2.1モデルを上回る性能
- トレーニングコスト:665,000 H100 GPU時間でトレーニングを完了、同様のモデルは通常200万GPU時間以上必要
- 推論速度:リアルタイムで24fpsの720p動画を生成可能、同等モデルより62倍高速
- リソース要件:1280×720解像度の生成に必要なVRAMはわずか40GB、中小規模のチームでも利用可能
画像から動画への生成評価では、Seaweed-7BはEloスコア1047、勝率58%を達成し、Wan 2.1(14Bパラメータ)の53%、Soraの36%を上回りました。
3つの重要技術革新
Seaweed-7Bのコスト効率の高さは、3つの重要な技術革新に起因しています:
1. データ精製技術
ByteDanceチームは、時空間分割、品質フィルタリング、合成強化を使用する6段階のデータクリーニングパイプラインを開発し、無効データの割合を42%から2.9%に削減、有効トレーニングデータを97.1%に増加させ、同じ計算能力で4倍のデータ利用効率を実現しました。
2. 革新的なアーキテクチャ設計
このモデルは64倍の圧縮比VAEとハイブリッドフローTransformerアーキテクチャを採用:
- VAE設計:従来のパッチベース圧縮を放棄し、因果的3D畳み込みアーキテクチャを採用、720p高精細再構築を確保しながらモデル収束速度を30%向上
- Transformer最適化:革新的なハイブリッドフローDiffusionアーキテクチャでフィードフォワードネットワークパラメータの2/3を共有し、デュアルフローアーキテクチャと比較して計算量を20%削減
3. 段階的トレーニング戦略
モデルトレーニングは4段階に分かれています:
- 画像基盤(256p):静止画像から始め、強固な視覚基盤を構築
- 短動画開始(360p):3〜5秒の短いシーケンスを処理し、動作の一貫性に焦点
- 高精細突破(720p):高解像度の詳細を最適化し、テキストから動画へのタスクを80%に増加
- 後処理微調整:SFTで美的効果を向上、RLHFで動きの構造を最適化し、不自然な動きを回避
幅広い応用シーン
基盤モデルとして、Seaweed-7Bは複数のダウンストリームアプリケーションをサポートします:
- 画像から動画への生成:単一画像または最初と最後のフレームから一貫性のある動画を作成
- 人物動画生成:多様な動作や表情を示すリアルな人物キャラクターを生成
- 音声・動画共同生成:マッチングする音声と動画コンテンツを同時に生成
- 長時間動画とストーリーテリング:最大1分間のシングルショット動画とマルチショットの長編ストーリーテリングをサポート
- リアルタイム生成:24fpsで720p動画をリアルタイム生成
- 超解像度生成:動画を2K QHD(2560×1440)解像度にアップスケール
- カメラ制御生成:定義された軌跡による正確なカメラ制御で、インタラクティブな世界探索を提供
物理的一貫性の強化
CGIレンダリングされた合成動画でのポストトレーニングにより、Seaweed-7Bは写真のようなリアルさを維持しながら動画生成の物理的一貫性も強化し、複雑な動作や3Dシーンをより自然でリアルに見せます。