テンセントが音声デジタルヒューマンモデル HunyuanVideo-Avatar をオープンソース化
テンセントの混元チームは、音声デジタルヒューマンモデル HunyuanVideo-Avatar を最近オープンソース化しました。このモデルは、1枚の人物画像と音声クリップから自然で滑らかなデジタルヒューマン動画を自動生成し、画像のキャラクターが話したり歌ったりすることができます。短編動画制作、EC広告、バーチャル司会者など、HunyuanVideo-Avatar はコンテンツ制作者や企業に便利なデジタルヒューマン動画生成体験を提供します。
動画デモ
- 複数シーンの女性ソロ:
- 複数シーンの対話例:
- 多様なスタイルのキャラクターデモ:
主な機能と特徴
- 1枚の画像と音声で動的動画を生成:人物画像と音声をアップロードするだけで、モデルが自動的に内容を理解し、自然な会話や歌唱動画を生成します。表情、リップシンク、全身の動きも含まれます。
- 高精度かつ高い動的表現:高品質で動きのあるデジタルヒューマン動画を生成でき、頭部・上半身・全身の動きに対応。
- 多様なスタイル・種別・2人シーン対応:実在の人物だけでなく、アニメや水墨画など多様なアートスタイルや、ロボット・動物など異なる種別の動画も生成可能。複数キャラクターのインタラクションもサポート。
- 感情の転送とコントロール:参照画像から感情の手がかりを抽出し、生成動画に反映。細やかな感情表現のコントロールが可能。
- キャラクターの一貫性:キャラクター画像注入モジュールにより、生成動画内のキャラクターの一貫性と自然な動きを実現。
- 顔認識オーディオ適応:複数キャラクターのシーンでは、顔認識オーディオアダプターで個別に音声を制御し、複数キャラクターの対話を実現。
主な利用シーン
- ECライブ配信:デジタルヒューマン司会者による商品紹介でインタラクション体験を向上。
- オンライン配信:バーチャル司会者やバーチャルアイドルのコンテンツ制作。
- SNS動画:個人やクリエイターが手軽にデジタルヒューマンの短編動画を作成。
- コンテンツ制作・編集:アニメやゲーム分野での動的動画生成ツールとして活用。
- 文化遺産の活用:歴史上の人物や文化財をデジタルヒューマンとして生き生きと表現。