Руководство по рабочему процессу HunyuanVideo Text-to-Video и примеры
В этом руководстве вы найдете подробную инструкцию по использованию модели Hunyuan Video от Tencent в ComfyUI для генерации видео на основе текста. Мы рассмотрим весь процесс пошагово.
1. Установка и обновление ComfyUI до последней версии
Если вы еще не установили ComfyUI, пожалуйста, ознакомьтесь с этими разделами:
Руководство по установке ComfyUI
Руководство по обновлению ComfyUI
Для доступа к узлу ‘EmptyHunyuanLatentVideo’ необходимо установить и обновить ComfyUI до самой последней версии.
2. Загрузка и установка моделей
Для работы HunyuanVideo требуются следующие файлы моделей:
2.1 Основной файл модели
Скачайте следующий файл с страницы загрузки основной модели HunyuanVideo:
Имя файла | Размер | Папка |
---|---|---|
hunyuan_video_t2v_720p_bf16.safetensors | ~25.6GB | ComfyUI/models/diffusion_models |
2.2 Файлы текстовых энкодеров
Скачайте следующие файлы с страницы загрузки текстовых энкодеров HunyuanVideo:
Имя файла | Размер | Папка |
---|---|---|
clip_l.safetensors | ~246MB | ComfyUI/models/text_encoders |
llava_llama3_fp8_scaled.safetensors | ~9.09GB | ComfyUI/models/text_encoders |
2.3 Файл VAE-модели
Скачайте следующий файл с страницы загрузки VAE для HunyuanVideo:
Имя файла | Размер | Папка |
---|---|---|
hunyuan_video_vae_bf16.safetensors | ~493MB | ComfyUI/models/vae |
Пример структуры папок для моделей
ComfyUI/
├── models/
│ ├── diffusion_models/
│ │ └── hunyuan_video_t2v_720p_bf16.safetensors # Main model file
│ ├── text_encoders/
│ │ ├── clip_l.safetensors # CLIP text encoder
│ │ └── llava_llama3_fp8_scaled.safetensors # LLaVA text encoder
│ └── vae/
│ └── hunyuan_video_vae_bf16.safetensors # VAE model file
3. Загрузка файла workflow (рабочего процесса)
Источник файла workflow: Скачать workflow HunyuanVideo
Базовый workflow генерации видео
HunyuanVideo поддерживает следующие настройки разрешения:
Разрешение | Соотношение 9:16 | Соотношение 16:9 | Соотношение 4:3 | Соотношение 3:4 | Соотношение 1:1 |
---|---|---|---|---|---|
540p | 544×960×129f | 960×544×129f | 624×832×129f | 832×624×129f | 720×720×129f |
720p (рекомендуется) | 720×1280×129f | 1280×720×129f | 1104×832×129f | 832×1104×129f | 960×960×129f |
4. Объяснение узлов workflow
4.1 Узлы загрузки моделей
-
UNETLoader
- Назначение: загрузка основного файла модели
- Параметры:
- Модель:
hunyuan_video_t2v_720p_bf16.safetensors
- Тип весов:
default
(можно выбрать fp8, если не хватает памяти)
- Модель:
-
DualCLIPLoader
- Назначение: загрузка моделей текстовых энкодеров
- Параметры:
- CLIP 1:
clip_l.safetensors
- CLIP 2:
llava_llama3_fp8_scaled.safetensors
- Текстовый энкодер:
hunyuan_video
- CLIP 1:
-
VAELoader
- Назначение: загрузка модели VAE
- Параметры:
- VAE-модель:
hunyuan_video_vae_bf16.safetensors
- VAE-модель:
4.2 Ключевые узлы генерации видео
-
EmptyHunyuanLatentVideo
- Назначение: создание латентного пространства видео
- Параметры:
- Ширина: ширина видео (например, 848)
- Высота: высота видео (например, 480)
- Количество кадров: (например, 73)
- Batch Size: размер пакета (по умолчанию 1)
-
CLIPTextEncode
- Назначение: кодирование текстового запроса
- Параметры:
- Текст: положительный prompt (опишите, что хотите сгенерировать)
- Рекомендуется использовать подробные описания на английском языке
-
FluxGuidance
- Назначение: управление силой направляющего сигнала генерации
- Параметры:
- Guidance Scale: сила направляющего сигнала (по умолчанию 6.0)
- Более высокие значения делают результат ближе к prompt, но могут повлиять на качество видео
-
KSamplerSelect
- Назначение: выбор сэмплера
- Параметры:
- Sampler: метод сэмплирования (по умолчанию
euler
) - Другие варианты:
euler_ancestral
,dpm++_2m
и др.
- Sampler: метод сэмплирования (по умолчанию
-
BasicScheduler
- Назначение: установка планировщика сэмплирования
- Параметры:
- Scheduler: метод планирования (по умолчанию
simple
) - Steps: количество шагов сэмплирования (рекомендуется 20-30)
- Denoise: сила шумоподавления (по умолчанию 1.0)
- Scheduler: метод планирования (по умолчанию
4.3 Узлы декодирования и сохранения видео
-
VAEDecodeTiled
- Назначение: декодирование латентного видео в реальное видео
- Параметры:
- Tile Size: 256 (можно уменьшить при нехватке памяти)
- Overlap: 64 (можно уменьшить при нехватке памяти)
Примечание: рекомендуется использовать VAEDecodeTiled вместо VAEDecode, так как он более экономно расходует память
-
SaveAnimatedWEBP
- Назначение: сохранение сгенерированного видео
- Параметры:
- Filename Prefix: префикс имени файла
- FPS: частота кадров (по умолчанию 24)
- Lossless: без потерь (по умолчанию false)
- Quality: качество (0-100, по умолчанию 80)
- Filter Type: тип фильтра (по умолчанию
default
)
5. Советы по оптимизации параметров
5.1 Оптимизация памяти
Если возникают проблемы с памятью:
- Выберите тип весов fp8 в UNETLoader
- Уменьшите параметры tile_size и overlap в VAEDecodeTiled
- Используйте более низкое разрешение видео и меньшее количество кадров
5.2 Оптимизация качества генерации
-
Оптимизация prompt
[Описание объекта], [Описание действия], [Описание сцены], [Описание стиля], [Требования к качеству]
Пример:
anime style anime girl with massive fennec ears and one big fluffy tail, she has blonde hair long hair blue eyes wearing a pink sweater and a long blue skirt walking in a beautiful outdoor scenery with snow mountains in the background
-
Настройка параметров
- Увеличьте количество шагов сэмплирования для лучшего качества
- При необходимости увеличьте Guidance Scale для лучшего соответствия тексту
- Настройте FPS и параметры качества видео по необходимости
6. Частые проблемы
-
Недостаточно памяти
- Следуйте советам из раздела по оптимизации памяти
- Закройте другие программы, потребляющие память
- Используйте более низкие настройки разрешения видео
-
Медленная скорость генерации
- Это нормально, генерация видео требует времени
- Можно уменьшить количество шагов сэмплирования и кадров
- Используйте более низкое разрешение для ускорения
-
Проблемы с качеством
- Оптимизируйте описание prompt
- Увеличьте количество шагов сэмплирования
- Настройте Guidance Scale
- Попробуйте разные сэмплеры