テンセントが音声デジタルヒューマンモデル HunyuanVideo-Avatar をオープンソース化：1枚の画像と音声で自然なデジタルヒューマン動画を生成

最終更新：2025年5月28日ComfyUI Wikinews

テンセントは HunyuanVideo-Avatar を発表し、画像と音声から高精度かつ感情制御可能なデジタルヒューマン動画を生成。短編動画やEC広告など多様なシーンに対応。

テンセントの混元チームは、音声デジタルヒューマンモデル HunyuanVideo-Avatar を最近オープンソース化しました。このモデルは、1枚の人物画像と音声クリップから自然で滑らかなデジタルヒューマン動画を自動生成し、画像のキャラクターが話したり歌ったりすることができます。短編動画制作、EC広告、バーチャル司会者など、HunyuanVideo-Avatar はコンテンツ制作者や企業に便利なデジタルヒューマン動画生成体験を提供します。

動画デモ

複数シーンの女性ソロ：
複数シーンの対話例：
多様なスタイルのキャラクターデモ：

主な機能と特徴

1枚の画像と音声で動的動画を生成：人物画像と音声をアップロードするだけで、モデルが自動的に内容を理解し、自然な会話や歌唱動画を生成します。表情、リップシンク、全身の動きも含まれます。
高精度かつ高い動的表現：高品質で動きのあるデジタルヒューマン動画を生成でき、頭部・上半身・全身の動きに対応。
多様なスタイル・種別・2人シーン対応：実在の人物だけでなく、アニメや水墨画など多様なアートスタイルや、ロボット・動物など異なる種別の動画も生成可能。複数キャラクターのインタラクションもサポート。
感情の転送とコントロール：参照画像から感情の手がかりを抽出し、生成動画に反映。細やかな感情表現のコントロールが可能。
キャラクターの一貫性：キャラクター画像注入モジュールにより、生成動画内のキャラクターの一貫性と自然な動きを実現。
顔認識オーディオ適応：複数キャラクターのシーンでは、顔認識オーディオアダプターで個別に音声を制御し、複数キャラクターの対話を実現。

主な利用シーン

ECライブ配信：デジタルヒューマン司会者による商品紹介でインタラクション体験を向上。
オンライン配信：バーチャル司会者やバーチャルアイドルのコンテンツ制作。
SNS動画：個人やクリエイターが手軽にデジタルヒューマンの短編動画を作成。
コンテンツ制作・編集：アニメやゲーム分野での動的動画生成ツールとして活用。
文化遺産の活用：歴史上の人物や文化財をデジタルヒューマンとして生き生きと表現。

関連リンク

コメント

GitHubでサインインしてディスカッションに参加しましょう。

コメントを読み込み中…

テンセントが音声デジタルヒューマンモデル HunyuanVideo-Avatar をオープンソース化：1枚の画像と音声で自然なデジタルヒューマン動画を生成 | ComfyUI Wiki