テンセントがマルチモーダル動画生成システムHunyuanCustomを発表

テンセントは最近、革新的な動画生成技術であるHunyuanCustom（混元カスタム）を発表しました。これは、テキスト、画像、音声、動画などのさまざまな入力条件をサポートしながら、被写体の一貫性を維持できるマルチモーダル動画カスタマイズフレームワークです。この技術は関連するモデルとコードとともにオープンソース化され、動画コンテンツ制作に新たな可能性をもたらしています。

技術革新

HunyuanCustomは混元動画生成フレームワークをベースに構築され、現在の動画生成技術における2つの主要な課題であるアイデンティティの一貫性と限られた入力モダリティに対処することに焦点を当てています。この技術はいくつかの重要な革新を導入しています：

テキスト-画像融合モジュール：LLaVA技術をベースにしたマルチモーダル理解能力の強化
画像ID強化モジュール：時間的連結を活用してフレーム間のアイデンティティ特徴を強化
モダリティ固有の条件注入メカニズム：
- AudioNetモジュール：空間的クロスアテンションによる階層的アラインメントの実現
- 動画駆動注入モジュール：パッチベースの特徴アラインメントネットワークを通じた条件付き動画の統合

これらの技術革新により、HunyuanCustomはアイデンティティの一貫性、リアリズム、テキスト-動画アラインメントの点で既存のオープンソースおよびクローズドソースの方法を大幅に上回る性能を発揮します。

マルチモーダル動画カスタマイズ機能

HunyuanCustomはさまざまな形式の入力をサポートしています：

テキストと画像入力：1つまたは複数の画像入力を処理し、1つまたは複数の被写体に対するカスタマイズされた動画生成を可能にします
音声入力：追加の音声入力を組み込み、被写体に対応する音声コンテンツを話させることができます
動画入力：動画入力をサポートし、動画内の特定のオブジェクトを与えられた画像の被写体と置き換えることができます

応用シナリオ

HunyuanCustomのマルチモーダル機能はさまざまなダウンストリームタスクをサポートします：

バーチャルヒューマン広告：複数の画像を入力することで製品紹介動画を作成
バーチャル試着：特定の衣服を着用している人の動画を生成
歌うアバター：画像と音声を組み合わせて歌うバーチャルキャラクターを作成
動画編集：画像と動画を入力として使用し、動画内の被写体を置き換え

パフォーマンス比較

HunyuanCustomはVACE、Skyreels、Pika、Vidu、Keling、Hailuoなどの最先端の動画カスタマイズ方法と比較されました。評価は顔/被写体の一貫性、動画-テキストのアラインメント、全体的な動画品質に焦点を当てました。

主要な指標において、HunyuanCustomは顕著な優位性を示しました：

顔類似度(Face-Sim)：0.627（1位）
DINO類似度：0.593（1位）
時間的一貫性：0.958（最高に近い）

オープンソース計画

テンセントは2025年5月8日にHunyuanCustomの推論コードとモデルの重みをリリースしました。オープンソース計画によると、チームは段階的に以下をリリースする予定です：

単一被写体動画カスタマイズ
- 推論コード（すでにリリース済み）
- モデルチェックポイント（すでにリリース済み）
- ComfyUIプラグイン
音声駆動動画カスタマイズ
動画駆動動画カスタマイズ
複数被写体動画カスタマイズ

システム要件

HunyuanCustomモデルで動画を生成するためのシステム要件は以下の通りです：

最低要件：720p動画を生成するには少なくとも24GBのVRAMが必要（ただし非常に遅い）
推奨構成：より良い生成品質を得るには80GBのメモリを搭載したGPUを推奨