Skip to content
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻腾讯开源语音数字人模型 HunyuanVideo-Avatar:一张图+音频即可生成自然数字人视频

腾讯开源语音数字人模型 HunyuanVideo-Avatar

HunyuanVideo-Avatar

腾讯混元团队近期开源了语音数字人模型 HunyuanVideo-Avatar。该模型能够通过一张人物图片和一段音频,自动生成自然流畅的数字人视频,让图片中的主角开口说话或唱歌。无论是短视频创作、电商广告还是虚拟主播,HunyuanVideo-Avatar 都能为内容创作者和企业带来便捷的数字人视频生成体验。

视频演示

  • 多场景女声独唱:
  • 多场景对话示例:
  • 多风格角色演示:

核心功能与特点

  • 一张图+音频生成动态视频:用户只需上传一张人物图片和一段音频,模型会自动理解图片和音频内容,生成自然的说话或唱歌视频,包含面部表情、唇形同步和全身动作。
  • 高保真与高动态性:支持生成高质量、动态丰富的数字人视频,涵盖头部、半身和全身动作。
  • 多风格、多物种、双人场景支持:不仅支持真人,还能生成多种艺术风格(如动漫、水墨画)和不同物种(如机器人、动物)的动态视频,支持多角色互动。
  • 情感迁移与控制:可提取参考图像中的情感线索,迁移到生成视频,实现细致的情感风格控制。
  • 角色一致性:通过角色图像注入模块,确保生成视频中角色的高度一致性和自然动态。
  • 面部感知音频适配:在多角色场景下,通过面部感知音频适配器实现独立音频驱动,支持多角色对话。

应用场景

  • 电商直播:数字人主播介绍产品,提升互动体验。
  • 在线流媒体:虚拟主播、虚拟偶像内容制作。
  • 社交媒体视频:个人和创作者轻松制作有趣的数字人短视频。
  • 内容创作与编辑:为动漫、游戏等领域提供动态视频生成工具。
  • 文化遗产活化:让历史人物、文物等以数字人形式生动展示。

相关链接