腾讯开源语音数字人模型 HunyuanVideo-Avatar
腾讯混元团队近期开源了语音数字人模型 HunyuanVideo-Avatar。该模型能够通过一张人物图片和一段音频,自动生成自然流畅的数字人视频,让图片中的主角开口说话或唱歌。无论是短视频创作、电商广告还是虚拟主播,HunyuanVideo-Avatar 都能为内容创作者和企业带来便捷的数字人视频生成体验。
视频演示
- 多场景女声独唱:
- 多场景对话示例:
- 多风格角色演示:
核心功能与特点
- 一张图+音频生成动态视频:用户只需上传一张人物图片和一段音频,模型会自动理解图片和音频内容,生成自然的说话或唱歌视频,包含面部表情、唇形同步和全身动作。
- 高保真与高动态性:支持生成高质量、动态丰富的数字人视频,涵盖头部、半身和全身动作。
- 多风格、多物种、双人场景支持:不仅支持真人,还能生成多种艺术风格(如动漫、水墨画)和不同物种(如机器人、动物)的动态视频,支持多角色互动。
- 情感迁移与控制:可提取参考图像中的情感线索,迁移到生成视频,实现细致的情感风格控制。
- 角色一致性:通过角色图像注入模块,确保生成视频中角色的高度一致性和自然动态。
- 面部感知音频适配:在多角色场景下,通过面部感知音频适配器实现独立音频驱动,支持多角色对话。
应用场景
- 电商直播:数字人主播介绍产品,提升互动体验。
- 在线流媒体:虚拟主播、虚拟偶像内容制作。
- 社交媒体视频:个人和创作者轻松制作有趣的数字人短视频。
- 内容创作与编辑:为动漫、游戏等领域提供动态视频生成工具。
- 文化遗产活化:让历史人物、文物等以数字人形式生动展示。