Skip to content
帮助 ComfyUI Wiki 移除广告 成为赞助者
ComfyUI 教程ComfyUI 进阶教程HunyuanVideo 文生视频工作流指南及示例

HunyuanVideo 文生视频工作流指南及示例

本教程将详细介绍如何在 ComfyUI 中使用腾讯混元 HunyuanVideo 模型进行文生视频生成。我们会从环境配置开始,一步步指导你完成整个过程。

1. 硬件要求说明

在开始之前,请确保你的设备满足以下最低配置要求:

  • GPU: NVIDIA 显卡,支持 CUDA
    • 最低要求: 60GB 显存 (生成 720p×1280p×129帧 视频)
    • 推荐配置: 80GB 显存 (用于更好的生成质量)
    • 最低可用配置: 45GB 显存 (生成 544p×960p×129帧 视频)
  • 操作系统: Linux (官方测试环境)
  • CUDA 版本: 推荐 CUDA 11.8 或 12.0+

硬件配置说明来自: https://huggingface.co/tencent/HunyuanVideo

1. 安装并更新 ComfyUI 到最新版本

如果你还没有安装 ComfyUI,请参考对应板块内容完成安装:

ComfyUI 安装教程 ComfyUI 更新教程

因为需要使用到 ‘EmptyHunyuanLatentVideo’ 节点,所以需要先安装并更新 ComfyUI 到最新版本才有对应的节点

2. 模型下载和安装

HunyuanVideo 需要下载以下模型文件:

2.1 主模型文件

HunyuanVideo 主模型下载页面 下载以下文件:

文件名大小放置目录
hunyuan_video_t2v_720p_bf16.safetensors约 25.6GBComfyUI/models/diffusion_models

2.2 文本编码器文件

HunyuanVideo 文本编码器下载页面 下载以下文件:

文件名大小放置目录
clip_l.safetensors约 246MBComfyUI/models/text_encoders
llava_llama3_fp8_scaled.safetensors约 9.09GBComfyUI/models/text_encoders

2.3 VAE 模型文件

HunyuanVideo VAE 下载页面 下载以下文件:

文件名大小放置目录
hunyuan_video_vae_bf16.safetensors约 493MBComfyUI/models/vae

模型目录结构参考

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── hunyuan_video_t2v_720p_bf16.safetensors  # 主模型文件
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                       # CLIP 文本编码器
│   │   └── llava_llama3_fp8_scaled.safetensors      # LLaVA 文本编码器
│   └── vae/
│       └── hunyuan_video_vae_bf16.safetensors       # VAE 模型文件

3.工作流文件下载

Raw Json Format

工作流文件来源地址: HunyuanVideo 工作流文件下载

基础视频生成工作流

HunyuanVideo 支持以下分辨率设置:

分辨率9:16 比例16:9 比例4:3 比例3:4 比例1:1 比例
540p544×960×129帧960×544×129帧624×832×129帧832×624×129帧720×720×129帧
720p (推荐)720×1280×129帧1280×720×129帧1104×832×129帧832×1104×129帧960×960×129帧

4. 工作流节点说明

4.1 模型加载节点

  1. UNETLoader

    • 用途:加载主模型文件
    • 参数:
      • Model: hunyuan_video_t2v_720p_bf16.safetensors
      • Weight Type: default (如果显存不足可以选择 fp8 类型)
  2. DualCLIPLoader

    • 用途:加载文本编码器模型
    • 参数:
      • CLIP 1: clip_l.safetensors
      • CLIP 2: llava_llama3_fp8_scaled.safetensors
      • Text Encoder: hunyuan_video
  3. VAELoader

    • 用途:加载 VAE 模型
    • 参数:
      • VAE Model: hunyuan_video_vae_bf16.safetensors

4.2 视频生成关键节点

  1. EmptyHunyuanLatentVideo

    • 用途:创建视频潜空间
    • 参数:
      • Width: 视频宽度(如 848)
      • Height: 视频高度(如 480)
      • Frame Count: 帧数(如 73)
      • Batch Size: 批次大小(默认 1)
  2. CLIPTextEncode

    • 用途:文本提示词编码
    • 参数:
      • Text: 正向提示词(描述你想要生成的内容)
      • 建议使用详细的英文描述
  3. FluxGuidance

    • 用途:控制生成引导强度
    • 参数:
      • Guidance Scale: 引导强度(默认 6.0)
      • 数值越大,生成结果越接近提示词,但可能影响视频质量
  4. KSamplerSelect

    • 用途:选择采样器
    • 参数:
      • Sampler: 采样方法(默认 euler
      • 其他可选:euler_ancestral, dpm++_2m
  5. BasicScheduler

    • 用途:设置采样调度器
    • 参数:
      • Scheduler: 调度方式(默认 simple
      • Steps: 采样步数(建议 20-30)
      • Denoise: 去噪强度(默认 1.0)

4.3 视频解码和保存节点

  1. VAEDecodeTiled

    • 用途:将潜空间视频解码为实际视频
    • 参数:
      • Tile Size: 256(如果显存不足可以调小)
      • Overlap: 64(如果显存不足可以调小)

    注意:优先使用 VAEDecodeTiled 而不是 VAEDecode,因为它更节省显存

  2. SaveAnimatedWEBP

    • 用途:保存生成的视频
    • 参数:
      • Filename Prefix: 文件名前缀
      • FPS: 帧率(默认 24)
      • Lossless: 是否无损(默认 false)
      • Quality: 质量(0-100,默认 80)
      • Filter Type: 过滤类型(默认 default

5. 参数优化建议

5.1 显存优化

如果遇到显存不足问题:

  1. 在 UNETLoader 中选择 fp8 权重类型
  2. 减小 VAEDecodeTiled 的 tile_size 和 overlap 参数
  3. 使用较低的视频分辨率和帧数

5.2 生成质量优化

  1. 提示词优化

    [主体描述], [动作描述], [场景描述], [风格描述], [质量要求]

    示例:

    anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background
  2. 参数调整

    • 增加采样步数(Steps)可提高质量
    • 适当提高 Guidance Scale 可增强文本相关性
    • 根据需要调整 FPS 和视频质量参数

6. 常见问题

  1. 显存不足

    • 参考显存优化部分的建议
    • 关闭其他占用显存的程序
    • 使用较低的视频分辨率设置
  2. 生成速度慢

    • 这是正常现象,视频生成需要较长时间
    • 可以适当减少采样步数和帧数
    • 使用较低分辨率可以加快速度
  3. 生成质量问题

    • 优化提示词描述
    • 增加采样步数
    • 调整 Guidance Scale
    • 尝试不同的采样器

参考内容链接