テンセント、HunyuanVideo動画生成大規模モデルをオープンソース化

テンセントは、現在業界最大規模の動画生成モデルHunyuanVideoを正式にオープンソース化しました。このモデルは130億のパラメータを持ち、動画品質や動きの安定性など多くの面で最高水準を達成し、GitHubとHugging Faceプラットフォームで完全にオープンソース化されています。

モデルの主な特徴

統合された画像・動画生成アーキテクチャ

「デュアルストリームからシングルストリーム」へのハイブリッドモデル設計を採用
Transformerアーキテクチャとフルアテンション機構を使用
画像と動画の統合生成をサポート

先進的な技術特性

マルチモーダル大規模言語モデル(MLLM)をテキストエンコーダーとして採用
時空間圧縮のための3D VAEを実装
NormalモードとMasterモードを備えた組み込みプロンプト書き換え機能
最大720pの高解像度動画生成をサポート

独自の優位性

伝統的な時代劇から現代的なテーマまで、中国風コンテンツの優れた表現
IDの一貫性を保ちながらプロンプトによるショット切り替えをサポート
激しい動きのシーンでも安定した物理特性を維持
プロフェッショナルな評価で、テキスト整合性、動きの品質、視覚的品質において既存の非公開モデルを上回る性能を示す

ハードウェア要件

最小構成：45GB GPU VRAM（544x960解像度）
推奨構成：60GB GPU VRAM（720x1280解像度）
H800/H20などのGPUに対応

オープンソースリソース

現在、モデルは以下のプラットフォームで公開されています：

GitHubリポジトリ：Tencent/HunyuanVideo
Hugging Faceモデル：tencent/HunyuanVideo

オンライン体験

ユーザーは以下の方法でHunyuanVideoを体験できます：

公式サイト：混元動画生成プラットフォーム
テンセント元宝アプリのAIアプリケーション - AI動画セクション

補完技術

コアとなる動画生成モデルに加えて、テンセントは一連の補完的な動画生成技術をリリースしました：

音声・画像統合生成技術
- 顔の発話とアクション動画生成をサポート
- 全身の動きの精密な制御を実現
動画コンテンツ理解と音声合成
- 動画シーンの内容をインテリジェントに認識
- プロンプトに基づいてマッチする音声を生成
表情転移
- 正確な口の動きの同期
- 自然な表情転移効果

将来の展望

HunyuanVideoのオープンソース化は、動画生成技術における重要な breakthrough であるだけでなく、AI動画生成分野全体に新たな可能性をもたらします。ソースコードと事前学習済みの重みを公開することで、テンセントは動画生成エコシステム全体の発展を促進し、より多くの開発者や研究者が技術革新に参加できることを期待しています。

モデルの継続的な最適化とコミュニティの共同努力により、近い将来、AI動画生成技術がクリエイティブな表現やコンテンツ制作などの分野でさらに重要な役割を果たすことが期待されます。

ByteDanceがSa2VAをリリース：初の統合型画像・動画理解モデル