OpenMOSS выпускает MOVA - модель синхронизированной генерации видео и аудио с открытым исходным кодом

29.01.2026

Руководство по рабочему процессу HunyuanVideo Text-to-Video и примеры

В этом руководстве вы найдете подробную инструкцию по использованию модели Hunyuan Video от Tencent в ComfyUI для генерации видео на основе текста. Мы рассмотрим весь процесс пошагово.

1. Установка и обновление ComfyUI до последней версии

Если вы еще не установили ComfyUI, пожалуйста, ознакомьтесь с этими разделами:

Руководство по установке ComfyUI
Руководство по обновлению ComfyUI

Для доступа к узлу ‘EmptyHunyuanLatentVideo’ необходимо установить и обновить ComfyUI до самой последней версии.

2. Загрузка и установка моделей

Для работы HunyuanVideo требуются следующие файлы моделей:

2.1 Основной файл модели

Скачайте следующий файл с страницы загрузки основной модели HunyuanVideo:

Имя файла	Размер	Папка
hunyuan_video_t2v_720p_bf16.safetensors	~25.6GB	ComfyUI/models/diffusion_models

2.2 Файлы текстовых энкодеров

Скачайте следующие файлы с страницы загрузки текстовых энкодеров HunyuanVideo:

Имя файла	Размер	Папка
clip_l.safetensors	~246MB	ComfyUI/models/text_encoders
llava_llama3_fp8_scaled.safetensors	~9.09GB	ComfyUI/models/text_encoders

2.3 Файл VAE-модели

Скачайте следующий файл с страницы загрузки VAE для HunyuanVideo:

Имя файла	Размер	Папка
hunyuan_video_vae_bf16.safetensors	~493MB	ComfyUI/models/vae

Пример структуры папок для моделей

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── hunyuan_video_t2v_720p_bf16.safetensors  # Main model file
│   ├── text_encoders/
│   │   ├── clip_l.safetensors                       # CLIP text encoder
│   │   └── llava_llama3_fp8_scaled.safetensors      # LLaVA text encoder
│   └── vae/
│       └── hunyuan_video_vae_bf16.safetensors       # VAE model file

3. Загрузка файла workflow (рабочего процесса)

Исходный формат Json

Источник файла workflow: Скачать workflow HunyuanVideo

Базовый workflow генерации видео

HunyuanVideo поддерживает следующие настройки разрешения:

Разрешение	Соотношение 9:16	Соотношение 16:9	Соотношение 4:3	Соотношение 3:4	Соотношение 1:1
540p	544×960×129f	960×544×129f	624×832×129f	832×624×129f	720×720×129f
720p (рекомендуется)	720×1280×129f	1280×720×129f	1104×832×129f	832×1104×129f	960×960×129f

4. Объяснение узлов workflow

4.1 Узлы загрузки моделей

UNETLoader
- Назначение: загрузка основного файла модели
- Параметры:
  - Модель: hunyuan_video_t2v_720p_bf16.safetensors
  - Тип весов: default (можно выбрать fp8, если не хватает памяти)
DualCLIPLoader
- Назначение: загрузка моделей текстовых энкодеров
- Параметры:
  - CLIP 1: clip_l.safetensors
  - CLIP 2: llava_llama3_fp8_scaled.safetensors
  - Текстовый энкодер: hunyuan_video
VAELoader
- Назначение: загрузка модели VAE
- Параметры:
  - VAE-модель: hunyuan_video_vae_bf16.safetensors

4.2 Ключевые узлы генерации видео

EmptyHunyuanLatentVideo
- Назначение: создание латентного пространства видео
- Параметры:
  - Ширина: ширина видео (например, 848)
  - Высота: высота видео (например, 480)
  - Количество кадров: (например, 73)
  - Batch Size: размер пакета (по умолчанию 1)
CLIPTextEncode
- Назначение: кодирование текстового запроса
- Параметры:
  - Текст: положительный prompt (опишите, что хотите сгенерировать)
  - Рекомендуется использовать подробные описания на английском языке
FluxGuidance
- Назначение: управление силой направляющего сигнала генерации
- Параметры:
  - Guidance Scale: сила направляющего сигнала (по умолчанию 6.0)
  - Более высокие значения делают результат ближе к prompt, но могут повлиять на качество видео
KSamplerSelect
- Назначение: выбор сэмплера
- Параметры:
  - Sampler: метод сэмплирования (по умолчанию euler)
  - Другие варианты: euler_ancestral, dpm++_2m и др.
BasicScheduler
- Назначение: установка планировщика сэмплирования
- Параметры:
  - Scheduler: метод планирования (по умолчанию simple)
  - Steps: количество шагов сэмплирования (рекомендуется 20-30)
  - Denoise: сила шумоподавления (по умолчанию 1.0)

4.3 Узлы декодирования и сохранения видео

VAEDecodeTiled
- Назначение: декодирование латентного видео в реальное видео
- Параметры:
  - Tile Size: 256 (можно уменьшить при нехватке памяти)
  - Overlap: 64 (можно уменьшить при нехватке памяти)
Примечание: рекомендуется использовать VAEDecodeTiled вместо VAEDecode, так как он более экономно расходует память
SaveAnimatedWEBP
- Назначение: сохранение сгенерированного видео
- Параметры:
  - Filename Prefix: префикс имени файла
  - FPS: частота кадров (по умолчанию 24)
  - Lossless: без потерь (по умолчанию false)
  - Quality: качество (0-100, по умолчанию 80)
  - Filter Type: тип фильтра (по умолчанию default)

5. Советы по оптимизации параметров

5.1 Оптимизация памяти

Если возникают проблемы с памятью:

Выберите тип весов fp8 в UNETLoader
Уменьшите параметры tile_size и overlap в VAEDecodeTiled
Используйте более низкое разрешение видео и меньшее количество кадров

5.2 Оптимизация качества генерации

Оптимизация prompt

[Описание объекта], [Описание действия], [Описание сцены], [Описание стиля], [Требования к качеству]

Пример:

anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background

Настройка параметров
- Увеличьте количество шагов сэмплирования для лучшего качества
- При необходимости увеличьте Guidance Scale для лучшего соответствия тексту
- Настройте FPS и параметры качества видео по необходимости

6. Частые проблемы

Недостаточно памяти
- Следуйте советам из раздела по оптимизации памяти
- Закройте другие программы, потребляющие память
- Используйте более низкие настройки разрешения видео
Медленная скорость генерации
- Это нормально, генерация видео требует времени
- Можно уменьшить количество шагов сэмплирования и кадров
- Используйте более низкое разрешение для ускорения
Проблемы с качеством
- Оптимизируйте описание prompt
- Увеличьте количество шагов сэмплирования
- Настройте Guidance Scale
- Попробуйте разные сэмплеры