腾讯发布混元定制视频生成系统HunyuanCustom
2025/05/10
腾讯发布混元定制视频生成系统HunyuanCustom
腾讯近日发布了一项创新性的视频生成技术——HunyuanCustom(混元定制),这是一个多模态视频定制生成框架,能够在保持主体一致性的同时,支持文本、图像、音频和视频等多种输入条件。该技术已开源相关模型与代码,为视频内容创作带来新的可能性。
技术创新
HunyuanCustom基于混元视频生成框架构建,专注于解决当前视频生成技术面临的两大挑战:身份一致性和有限的输入模态。该技术引入了几个关键创新点:
- 文本-图像融合模块:基于LLaVA技术,增强多模态理解能力
- 图像ID增强模块:利用时间轴连接,增强跨帧的身份特征
- 特定模态的条件注入机制:
- AudioNet模块:通过空间交叉注意力实现层次化对齐
- 视频驱动注入模块:通过基于分块的特征对齐网络集成条件视频
这些技术创新使HunyuanCustom在身份一致性、真实感和文本-视频对齐方面显著优于现有的开源和闭源方法。
多模态视频定制能力
HunyuanCustom支持多种形式的输入,具体包括:
- 文本和图像输入:可处理单个或多个图像输入,实现一个或多个主体的定制视频生成
- 音频输入:可结合额外的音频输入,驱动主体说出相应的音频内容
- 视频输入:支持视频输入,允许将视频中的特定对象替换为给定图像中的主体
应用场景
HunyuanCustom的多模态能力可支持多种下游任务:
- 虚拟人物广告:通过输入多个图像创建产品展示视频
- 虚拟试穿:生成人物穿着特定服装的视频
- 歌唱虚拟形象:结合图像和音频创建唱歌的虚拟人物
- 视频编辑:使用图像和视频作为输入,替换视频中的主体
性能比较
HunyuanCustom与包括VACE、Skyreels、Pika、Vidu、Keling和Hailuo在内的最先进视频定制方法进行了比较。评估重点关注了面部/主体一致性、视频-文本对齐和整体视频质量。
在主要指标方面,HunyuanCustom展现出显著优势:
- 面部相似度(Face-Sim):0.627(第一名)
- DINO相似度:0.593(第一名)
- 时间一致性:0.958(接近最佳)
开源计划
腾讯已于2025年5月8日发布了HunyuanCustom的推理代码和模型权重。根据开源计划,团队将陆续发布:
- 单主体视频定制
- 推理代码(已发布)
- 模型检查点(已发布)
- ComfyUI插件
- 音频驱动视频定制
- 视频驱动视频定制
- 多主体视频定制
系统要求
HunyuanCustom模型生成视频的系统要求如下:
模型 | 设置(高度/宽度/帧数) | GPU峰值内存 |
---|---|---|
HunyuanCustom | 720px1280px129f | 80GB |
HunyuanCustom | 512px896px129f | 60GB |
- 最低要求:生成720p视频至少需要24GB显存(但速度很慢)
- 推荐配置:建议使用80GB显存的GPU以获得更好的生成质量