テンセント、HunyuanVideo動画生成大規模モデルをオープンソース化
テンセントは、現在業界最大規模の動画生成モデルHunyuanVideoを正式にオープンソース化しました。このモデルは130億のパラメータを持ち、動画品質や動きの安定性など多くの面で最高水準を達成し、GitHubとHugging Faceプラットフォームで完全にオープンソース化されています。
モデルの主な特徴
統合された画像・動画生成アーキテクチャ
- 「デュアルストリームからシングルストリーム」へのハイブリッドモデル設計を採用
- Transformerアーキテクチャとフルアテンション機構を使用
- 画像と動画の統合生成をサポート
先進的な技術特性
- マルチモーダル大規模言語モデル(MLLM)をテキストエンコーダーとして採用
- 時空間圧縮のための3D VAEを実装
- NormalモードとMasterモードを備えた組み込みプロンプト書き換え機能
- 最大720pの高解像度動画生成をサポート
独自の優位性
- 伝統的な時代劇から現代的なテーマまで、中国風コンテンツの優れた表現
- IDの一貫性を保ちながらプロンプトによるショット切り替えをサポート
- 激しい動きのシーンでも安定した物理特性を維持
- プロフェッショナルな評価で、テキスト整合性、動きの品質、視覚的品質において既存の非公開モデルを上回る性能を示す
ハードウェア要件
- 最小構成:45GB GPU VRAM(544x960解像度)
- 推奨構成:60GB GPU VRAM(720x1280解像度)
- H800/H20などのGPUに対応
オープンソースリソース
現在、モデルは以下のプラットフォームで公開されています:
- GitHubリポジトリ:Tencent/HunyuanVideo
- Hugging Faceモデル:tencent/HunyuanVideo
オンライン体験
ユーザーは以下の方法でHunyuanVideoを体験できます:
- 公式サイト:混元動画生成プラットフォーム
- テンセント元宝アプリのAIアプリケーション - AI動画セクション
補完技術
コアとなる動画生成モデルに加えて、テンセントは一連の補完的な動画生成技術をリリースしました:
-
音声・画像統合生成技術
- 顔の発話とアクション動画生成をサポート
- 全身の動きの精密な制御を実現
-
動画コンテンツ理解と音声合成
- 動画シーンの内容をインテリジェントに認識
- プロンプトに基づいてマッチする音声を生成
-
表情転移
- 正確な口の動きの同期
- 自然な表情転移効果
将来の展望
HunyuanVideoのオープンソース化は、動画生成技術における重要な breakthrough であるだけでなく、AI動画生成分野全体に新たな可能性をもたらします。ソースコードと事前学習済みの重みを公開することで、テンセントは動画生成エコシステム全体の発展を促進し、より多くの開発者や研究者が技術革新に参加できることを期待しています。
モデルの継続的な最適化とコミュニティの共同努力により、近い将来、AI動画生成技術がクリエイティブな表現やコンテンツ制作などの分野でさらに重要な役割を果たすことが期待されます。
関連リソース
- 公式ドキュメントと例:GitHubドキュメント
- オンラインデモプラットフォーム:混元動画生成プラットフォーム
- 技術コミュニティ:GitHub Issues
Last updated on