腾讯发布混元定制视频生成系统HunyuanCustom

最后更新：2025年5月10日ComfyUI Wikinews

腾讯推出的多模态视频定制生成框架HunyuanCustom，支持文本、图像、音频和视频条件，实现多场景下的高一致性视频生成

腾讯近日发布了一项创新性的视频生成技术——HunyuanCustom（混元定制），这是一个多模态视频定制生成框架，能够在保持主体一致性的同时，支持文本、图像、音频和视频等多种输入条件。该技术已开源相关模型与代码，为视频内容创作带来新的可能性。

HunyuanCustom总体架构

技术创新

HunyuanCustom基于混元视频生成框架构建，专注于解决当前视频生成技术面临的两大挑战：身份一致性和有限的输入模态。该技术引入了几个关键创新点：

文本-图像融合模块：基于LLaVA技术，增强多模态理解能力
图像ID增强模块：利用时间轴连接，增强跨帧的身份特征
特定模态的条件注入机制：
- AudioNet模块：通过空间交叉注意力实现层次化对齐
- 视频驱动注入模块：通过基于分块的特征对齐网络集成条件视频

这些技术创新使HunyuanCustom在身份一致性、真实感和文本-视频对齐方面显著优于现有的开源和闭源方法。

多模态视频定制能力

HunyuanCustom支持多种形式的输入，具体包括：

文本和图像输入：可处理单个或多个图像输入，实现一个或多个主体的定制视频生成
音频输入：可结合额外的音频输入，驱动主体说出相应的音频内容
视频输入：支持视频输入，允许将视频中的特定对象替换为给定图像中的主体

HunyuanCustom多模态能力

应用场景

HunyuanCustom的多模态能力可支持多种下游任务：

虚拟人物广告：通过输入多个图像创建产品展示视频
虚拟试穿：生成人物穿着特定服装的视频
歌唱虚拟形象：结合图像和音频创建唱歌的虚拟人物
视频编辑：使用图像和视频作为输入，替换视频中的主体

HunyuanCustom应用场景

性能比较

HunyuanCustom与包括VACE、Skyreels、Pika、Vidu、Keling和Hailuo在内的最先进视频定制方法进行了比较。评估重点关注了面部/主体一致性、视频-文本对齐和整体视频质量。

在主要指标方面，HunyuanCustom展现出显著优势：

面部相似度(Face-Sim)：0.627（第一名）
DINO相似度：0.593（第一名）
时间一致性：0.958（接近最佳）

开源计划

腾讯已于2025年5月8日发布了HunyuanCustom的推理代码和模型权重。根据开源计划，团队将陆续发布：

单主体视频定制
- 推理代码（已发布）
- 模型检查点（已发布）
- ComfyUI插件
音频驱动视频定制
视频驱动视频定制
多主体视频定制

系统要求

HunyuanCustom模型生成视频的系统要求如下：

| 模型 | 设置（高度/宽度/帧数） | GPU峰值内存 | | | | | | HunyuanCustom | 720px1280px129f | 80GB | | HunyuanCustom | 512px896px129f | 60GB |

最低要求：生成720p视频至少需要24GB显存（但速度很慢）
推荐配置：建议使用80GB显存的GPU以获得更好的生成质量

相关链接

评论

使用 GitHub 登录后即可参与讨论。

评论加载中…

腾讯发布混元定制视频生成系统HunyuanCustom | ComfyUI Wiki