Skip to content
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻腾讯发布混元定制视频生成系统HunyuanCustom

腾讯发布混元定制视频生成系统HunyuanCustom

腾讯近日发布了一项创新性的视频生成技术——HunyuanCustom(混元定制),这是一个多模态视频定制生成框架,能够在保持主体一致性的同时,支持文本、图像、音频和视频等多种输入条件。该技术已开源相关模型与代码,为视频内容创作带来新的可能性。

HunyuanCustom总体架构

技术创新

HunyuanCustom基于混元视频生成框架构建,专注于解决当前视频生成技术面临的两大挑战:身份一致性和有限的输入模态。该技术引入了几个关键创新点:

  1. 文本-图像融合模块:基于LLaVA技术,增强多模态理解能力
  2. 图像ID增强模块:利用时间轴连接,增强跨帧的身份特征
  3. 特定模态的条件注入机制
    • AudioNet模块:通过空间交叉注意力实现层次化对齐
    • 视频驱动注入模块:通过基于分块的特征对齐网络集成条件视频

这些技术创新使HunyuanCustom在身份一致性、真实感和文本-视频对齐方面显著优于现有的开源和闭源方法。

多模态视频定制能力

HunyuanCustom支持多种形式的输入,具体包括:

  • 文本和图像输入:可处理单个或多个图像输入,实现一个或多个主体的定制视频生成
  • 音频输入:可结合额外的音频输入,驱动主体说出相应的音频内容
  • 视频输入:支持视频输入,允许将视频中的特定对象替换为给定图像中的主体

HunyuanCustom多模态能力

应用场景

HunyuanCustom的多模态能力可支持多种下游任务:

  • 虚拟人物广告:通过输入多个图像创建产品展示视频
  • 虚拟试穿:生成人物穿着特定服装的视频
  • 歌唱虚拟形象:结合图像和音频创建唱歌的虚拟人物
  • 视频编辑:使用图像和视频作为输入,替换视频中的主体

HunyuanCustom应用场景

性能比较

HunyuanCustom与包括VACE、Skyreels、Pika、Vidu、Keling和Hailuo在内的最先进视频定制方法进行了比较。评估重点关注了面部/主体一致性、视频-文本对齐和整体视频质量。

在主要指标方面,HunyuanCustom展现出显著优势:

  • 面部相似度(Face-Sim):0.627(第一名)
  • DINO相似度:0.593(第一名)
  • 时间一致性:0.958(接近最佳)

开源计划

腾讯已于2025年5月8日发布了HunyuanCustom的推理代码和模型权重。根据开源计划,团队将陆续发布:

  • 单主体视频定制
    • 推理代码(已发布)
    • 模型检查点(已发布)
    • ComfyUI插件
  • 音频驱动视频定制
  • 视频驱动视频定制
  • 多主体视频定制

系统要求

HunyuanCustom模型生成视频的系统要求如下:

模型设置(高度/宽度/帧数)GPU峰值内存
HunyuanCustom720px1280px129f80GB
HunyuanCustom512px896px129f60GB
  • 最低要求:生成720p视频至少需要24GB显存(但速度很慢)
  • 推荐配置:建议使用80GB显存的GPU以获得更好的生成质量

相关链接