HunyuanVideo 文生视频工作流指南及示例
本教程将详细介绍如何在 ComfyUI 中使用腾讯混元 HunyuanVideo 模型进行文生视频生成。我们会从环境配置开始,一步步指导你完成整个过程。
1. 硬件要求说明
在开始之前,请确保你的设备满足以下最低配置要求:
- GPU: NVIDIA 显卡,支持 CUDA
- 最低要求: 60GB 显存 (生成 720p×1280p×129帧 视频)
- 推荐配置: 80GB 显存 (用于更好的生成质量)
- 最低可用配置: 45GB 显存 (生成 544p×960p×129帧 视频)
- 操作系统: Linux (官方测试环境)
- CUDA 版本: 推荐 CUDA 11.8 或 12.0+
1. 安装并更新 ComfyUI 到最新版本
如果你还没有安装 ComfyUI,请参考对应板块内容完成安装:
因为需要使用到 ‘EmptyHunyuanLatentVideo’ 节点,所以需要先安装并更新 ComfyUI 到最新版本才有对应的节点
2. 模型下载和安装
HunyuanVideo 需要下载以下模型文件:
2.1 主模型文件
从 HunyuanVideo 主模型下载页面 下载以下文件:
文件名 | 大小 | 放置目录 |
---|---|---|
hunyuan_video_t2v_720p_bf16.safetensors | 约 25.6GB | ComfyUI/models/diffusion_models |
2.2 文本编码器文件
从 HunyuanVideo 文本编码器下载页面 下载以下文件:
文件名 | 大小 | 放置目录 |
---|---|---|
clip_l.safetensors | 约 246MB | ComfyUI/models/text_encoders |
llava_llama3_fp8_scaled.safetensors | 约 9.09GB | ComfyUI/models/text_encoders |
2.3 VAE 模型文件
从 HunyuanVideo VAE 下载页面 下载以下文件:
文件名 | 大小 | 放置目录 |
---|---|---|
hunyuan_video_vae_bf16.safetensors | 约 493MB | ComfyUI/models/vae |
模型目录结构参考
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └── hunyuan_video_t2v_720p_bf16.safetensors # 主模型文件
│ ├── text_encoders/
│ │ ├── clip_l.safetensors # CLIP 文本编码器
│ │ └── llava_llama3_fp8_scaled.safetensors # LLaVA 文本编码器
│ └── vae/
│ └── hunyuan_video_vae_bf16.safetensors # VAE 模型文件
3.工作流文件下载
工作流文件来源地址: HunyuanVideo 工作流文件下载
基础视频生成工作流
HunyuanVideo 支持以下分辨率设置:
分辨率 | 9:16 比例 | 16:9 比例 | 4:3 比例 | 3:4 比例 | 1:1 比例 |
---|---|---|---|---|---|
540p | 544×960×129帧 | 960×544×129帧 | 624×832×129帧 | 832×624×129帧 | 720×720×129帧 |
720p (推荐) | 720×1280×129帧 | 1280×720×129帧 | 1104×832×129帧 | 832×1104×129帧 | 960×960×129帧 |
4. 工作流节点说明
4.1 模型加载节点
-
UNETLoader
- 用途:加载主模型文件
- 参数:
- Model:
hunyuan_video_t2v_720p_bf16.safetensors
- Weight Type:
default
(如果显存不足可以选择 fp8 类型)
- Model:
-
DualCLIPLoader
- 用途:加载文本编码器模型
- 参数:
- CLIP 1:
clip_l.safetensors
- CLIP 2:
llava_llama3_fp8_scaled.safetensors
- Text Encoder:
hunyuan_video
- CLIP 1:
-
VAELoader
- 用途:加载 VAE 模型
- 参数:
- VAE Model:
hunyuan_video_vae_bf16.safetensors
- VAE Model:
4.2 视频生成关键节点
-
EmptyHunyuanLatentVideo
- 用途:创建视频潜空间
- 参数:
- Width: 视频宽度(如 848)
- Height: 视频高度(如 480)
- Frame Count: 帧数(如 73)
- Batch Size: 批次大小(默认 1)
-
CLIPTextEncode
- 用途:文本提示词编码
- 参数:
- Text: 正向提示词(描述你想要生成的内容)
- 建议使用详细的英文描述
-
FluxGuidance
- 用途:控制生成引导强度
- 参数:
- Guidance Scale: 引导强度(默认 6.0)
- 数值越大,生成结果越接近提示词,但可能影响视频质量
-
KSamplerSelect
- 用途:选择采样器
- 参数:
- Sampler: 采样方法(默认
euler
) - 其他可选:
euler_ancestral
,dpm++_2m
等
- Sampler: 采样方法(默认
-
BasicScheduler
- 用途:设置采样调度器
- 参数:
- Scheduler: 调度方式(默认
simple
) - Steps: 采样步数(建议 20-30)
- Denoise: 去噪强度(默认 1.0)
- Scheduler: 调度方式(默认
4.3 视频解码和保存节点
-
VAEDecodeTiled
- 用途:将潜空间视频解码为实际视频
- 参数:
- Tile Size: 256(如果显存不足可以调小)
- Overlap: 64(如果显存不足可以调小)
注意:优先使用 VAEDecodeTiled 而不是 VAEDecode,因为它更节省显存
-
SaveAnimatedWEBP
- 用途:保存生成的视频
- 参数:
- Filename Prefix: 文件名前缀
- FPS: 帧率(默认 24)
- Lossless: 是否无损(默认 false)
- Quality: 质量(0-100,默认 80)
- Filter Type: 过滤类型(默认
default
)
5. 参数优化建议
5.1 显存优化
如果遇到显存不足问题:
- 在 UNETLoader 中选择 fp8 权重类型
- 减小 VAEDecodeTiled 的 tile_size 和 overlap 参数
- 使用较低的视频分辨率和帧数
5.2 生成质量优化
-
提示词优化
[主体描述], [动作描述], [场景描述], [风格描述], [质量要求]
示例:
anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background
-
参数调整
- 增加采样步数(Steps)可提高质量
- 适当提高 Guidance Scale 可增强文本相关性
- 根据需要调整 FPS 和视频质量参数
6. 常见问题
-
显存不足
- 参考显存优化部分的建议
- 关闭其他占用显存的程序
- 使用较低的视频分辨率设置
-
生成速度慢
- 这是正常现象,视频生成需要较长时间
- 可以适当减少采样步数和帧数
- 使用较低分辨率可以加快速度
-
生成质量问题
- 优化提示词描述
- 增加采样步数
- 调整 Guidance Scale
- 尝试不同的采样器