腾讯开源语音数字人模型 HunyuanVideo-Avatar

HunyuanVideo-Avatar

腾讯混元团队近期开源了语音数字人模型 HunyuanVideo-Avatar。该模型能够通过一张人物图片和一段音频，自动生成自然流畅的数字人视频，让图片中的主角开口说话或唱歌。无论是短视频创作、电商广告还是虚拟主播，HunyuanVideo-Avatar 都能为内容创作者和企业带来便捷的数字人视频生成体验。

视频演示

多场景女声独唱：

多场景对话示例：

多风格角色演示：

核心功能与特点

一张图+音频生成动态视频：用户只需上传一张人物图片和一段音频，模型会自动理解图片和音频内容，生成自然的说话或唱歌视频，包含面部表情、唇形同步和全身动作。
高保真与高动态性：支持生成高质量、动态丰富的数字人视频，涵盖头部、半身和全身动作。
多风格、多物种、双人场景支持：不仅支持真人，还能生成多种艺术风格（如动漫、水墨画）和不同物种（如机器人、动物）的动态视频，支持多角色互动。
情感迁移与控制：可提取参考图像中的情感线索，迁移到生成视频，实现细致的情感风格控制。
角色一致性：通过角色图像注入模块，确保生成视频中角色的高度一致性和自然动态。
面部感知音频适配：在多角色场景下，通过面部感知音频适配器实现独立音频驱动，支持多角色对话。

应用场景

电商直播：数字人主播介绍产品，提升互动体验。
在线流媒体：虚拟主播、虚拟偶像内容制作。
社交媒体视频：个人和创作者轻松制作有趣的数字人短视频。
内容创作与编辑：为动漫、游戏等领域提供动态视频生成工具。
文化遗产活化：让历史人物、文物等以数字人形式生动展示。

OpenMOSS 发布 MOVA - 开源音视频同步生成模型

腾讯开源语音数字人模型 HunyuanVideo-Avatar

视频演示

核心功能与特点

应用场景

相关链接