OpenMOSS выпускает MOVA - модель синхронизированной генерации видео и аудио с открытым исходным кодом

29.01.2026

Wan2.1 ComfyUI Workflow

Модель Wan2.1, открытая компанией Alibaba в феврале 2025 года, является одной из эталонных моделей в области генерации видео. Она распространяется по лицензии Apache 2.0 и доступна в двух версиях: 14B (14 миллиардов параметров) и 1.3B (1,3 миллиарда параметров), поддерживает задачи генерации видео по тексту (T2V) и по изображению (I2V).

Также сообщество подготовило версии GGUF и квантизированные варианты:

GGUF: https://huggingface.co/city96/Wan2.1-T2V-14B-gguf/tree/main
Квантизированная версия: https://huggingface.co/Kijai/WanVideo_comfy/tree/main

В этом материале вы найдете инструкции по работе с различными рабочими процессами (workflow) для Wan2.1, включая:

Официальный workflow Wan2.1, поддерживаемый ComfyUI
Версию от Kijai
GGUF-версию от City96

💡

Все файлы рабочих процессов (workflow), используемые в этом руководстве, содержат необходимую информацию и могут быть перетащены прямо в ComfyUI для загрузки соответствующего workflow и моделей. После появления всплывающего окна нажмите для загрузки нужной модели. Если автоматическая загрузка не удалась, воспользуйтесь разделом ручной установки моделей. Все сгенерированные видео сохраняются в папке ComfyUI/output. Поскольку Wan2.1 разделяет модели для 480P и 720P, различия между рабочими процессами заключаются только в используемой модели и размере холста. Вы можете адаптировать workflow под нужное разрешение, изменив соответствующие параметры.

Пример официального рабочего процесса Wan2.1 в ComfyUI

Следующий рабочий процесс взят из официального блога ComfyUI. На данный момент ComfyUI поддерживает Wan2.1 на уровне ядра. Для использования этой версии обновите ComfyUI до последней версии. Как это сделать, смотрите в разделе как обновить ComfyUI. Оригинальные рабочие процессы также собраны на ComfyUI Wiki.

После обновления ComfyUI до последней версии вы найдете шаблон рабочего процесса Wan2.1 в меню Workflows -> Workflow Templates.

Wan2.1 Workflow Template

Все файлы рабочих процессов для этой версии размещены здесь: Comfy-Org/Wan_2.1_ComfyUI_repackaged.

В разделе Diffusion models доступно несколько вариантов моделей. Если для официальной версии требуется мощное оборудование, вы можете выбрать подходящую по своим возможностям.

i2v — это модель генерации видео по изображению (image to video), t2v — по тексту (text to video).
14B и 1.3B — количество параметров модели: чем больше, тем выше требования к железу.
bf16, fp16 и fp8 — разные уровни точности: чем выше точность, тем выше требования к оборудованию.
- bf16 требует видеокарты с архитектурой Ampere или новее.
- fp16 поддерживается более широким спектром видеокарт.
- fp8 — минимальные требования к железу, но и качество может быть ниже.
Обычно, чем больше размер файла модели, тем выше требования к системе.

1. Генерация видео по тексту (Text-to-Video) с Wan2.1

1.1 Загрузка файла рабочего процесса для генерации видео по тексту

Скачайте изображение ниже и перетащите его в ComfyUI, либо используйте меню Workflows -> Open(Ctrl+O) для загрузки workflow.

Скачайте файл в формате JSON.

1.2 Ручная установка моделей

Если автоматическая загрузка моделей не удалась, скачайте нужные файлы по ссылкам ниже и сохраните их в соответствующие папки.

💡

Для разных типов моделей доступно несколько файлов — скачайте только один. На ComfyUI Wiki они отсортированы по требованиям к GPU: от самых высоких к самым низким. Посмотреть все файлы можно здесь.

Выберите и скачайте один файл из раздела Diffusion models:

Выберите и скачайте одну версию из раздела Text encoders:

VAE

wan_2.1_vae.safetensors

Путь для сохранения файлов

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1_t2v_14B_fp16.safetensors              # Выберите версию
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors      # Выберите версию
│   └── vae/
│       └──  wan_2.1_vae.safetensors

1.3 Шаги для запуска рабочего процесса

ComfyUI Wan2.1 Workflow Steps

Убедитесь, что в узле Load Diffusion Model загружена модель wan2.1_t2v_1.3B_fp16.safetensors.
Убедитесь, что в узле Load CLIP загружена модель umt5_xxl_fp8_e4m3fn_scaled.safetensors.
Убедитесь, что в узле Load VAE загружена модель wan_2.1_vae.safetensors.
В узле CLIP Text Encoder введите описание видео, которое вы хотите сгенерировать.
Нажмите кнопку Run или используйте сочетание клавиш Ctrl(cmd) + Enter для запуска генерации видео.

2. Рабочий процесс Wan2.1 Image-to-Video

2.1 Wan2.1 Image-to-Video Workflow 14B

Скачать файл рабочего процесса
Пожалуйста, нажмите на кнопку ниже, чтобы скачать соответствующий рабочий процесс, затем перетащите его в интерфейс ComfyUI или используйте меню Workflows -> Open(Ctrl+O) для загрузки.

Wan2.1 Image-to-Video Workflow 14B 480P Workflow

Скачайте файл в формате JSON.

Эта версия рабочего процесса практически такая же, как и версия 480P, за исключением использования другой модели диффузии и других размеров для узла WanImageToVideo.

Скачайте изображение ниже для использования в качестве входного изображения. Wan2.1 Image-to-Video Workflow 14B 480P Workflow Input Image Example

2.2 Ручная загрузка моделей

Если автоматическая загрузка моделей не удалась, скачайте необходимые файлы моделей ниже и сохраните их в соответствующие папки.

Diffusion models

Версия 720P

Версия 480P

Text encoders

VAE

wan_2.1_vae.safetensors

CLIP Vision

clip_vision_h.safetensors

Путь для сохранения файлов

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1_i2v_480p_14B_fp16.safetensors         # Выберите версию
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors      # Выберите версию
│   └── vae/
│   │   └──  wan_2.1_vae.safetensors
│   └── clip_vision/
│       └──  clip_vision_h.safetensors

2.3 Шаги для запуска рабочего процесса

ComfyUI Wan2.1 Шаги рабочего процесса

Убедитесь, что в узле Load Diffusion Model загружена модель wan2.1_i2v_480p_14B_fp16.safetensors
Убедитесь, что в узле Load CLIP загружена модель umt5_xxl_fp8_e4m3fn_scaled.safetensors
Убедитесь, что в узле Load VAE загружена модель wan_2.1_vae.safetensors
Убедитесь, что в узле Load CLIP Vision загружена модель clip_vision_h.safetensors
Загрузите входное изображение в узел Load Image
Введите желаемый текст для генерации в узле CLIP Text Encoder или используйте пример из рабочего процесса (workflow)
Нажмите кнопку Run или используйте сочетание клавиш Ctrl(cmd) + Enter(Enter), чтобы запустить генерацию видео

Kijai Wan2.1 Квантованная версия рабочего процесса

Эта версия предоставлена Kijai и требует установки следующих пользовательских узлов:

Вам необходимо установить три следующих узла:

Пожалуйста, установите эти три пользовательских узла перед началом работы. Вы можете ознакомиться с руководством по установке пользовательских узлов ComfyUI.

Репозиторий моделей: Kijai/WanVideo_comfy

В репозитории представлено несколько версий моделей, выберите подходящую в зависимости от производительности вашего устройства. Как правило, более крупные файлы обеспечивают лучшее качество, но требуют более мощного оборудования.

💡

Если стандартный рабочий процесс ComfyUI хорошо работает на вашем устройстве, вы также можете использовать модель от Comfy Org. В этом примере я буду использовать модель от Kijai.

1. Kijai Текст-видео рабочий процесс

1.1 Загрузка рабочего процесса Kijai Wan2.1 Text-to-Video

Пожалуйста, нажмите на кнопку ниже, чтобы скачать соответствующий рабочий процесс (workflow), затем перетащите его в интерфейс ComfyUI или используйте меню Workflows -> Open(Ctrl+O) для загрузки.

Оба файла рабочих процессов практически одинаковы, но во втором файле есть дополнительные пояснения.

1.2 Ручная установка моделей

💡

Посетите: https://huggingface.co/Kijai/WanVideo_comfy/tree/main чтобы посмотреть размер файлов. Обычно более крупные файлы дают лучший результат, но требуют более мощного оборудования.

Diffusion models (диффузионные модели)

Text encoders (текстовые энкодеры)

VAE

Путь для сохранения файлов

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── Wan2_1-T2V-14B_fp8_e4m3fn.safetensors             # Or the version you choose
│   ├── text_encoders/
│   │   └─── umt5-xxl-enc-bf16.safetensors                    # Or the version you choose
│   └─── vae/
│       └──  Wan2_1_VAE_bf16.safetensors                      # Or the version you choose

1.3 Шаги для запуска рабочего процесса

Этапы рабочего процесса Wan2.1 Text-to-Video

Убедитесь, что каждый узел загрузил соответствующую модель, используйте ту версию, которую вы скачали.

Проверьте, что узел WanVideo Vae Loader загрузил модель Wan2_1_VAE_bf16.safetensors
Проверьте, что узел WanVideo Model Loader загрузил модель Wan2_1-T2V-14B_fp8_e4m3fn.safetensors
Проверьте, что узел Load WanVideo T5 TextEncoder загрузил модель umt5-xxl-enc-bf16.safetensors
Введите желаемый текст для генерации в узле WanVideo TextEncode
Нажмите кнопку Run или используйте сочетание клавиш Ctrl(cmd) + Enter(Enter), чтобы запустить генерацию видео

Вы можете изменить размер видео, настроив параметры в узле WanVideo Empty Embeds.

2. Рабочий процесс Kijai Wan2.1 Image-to-Video

2.1 Загрузка файла рабочего процесса

Скачайте изображение ниже для использования в качестве входного изображения: Входное изображение для рабочего процесса ComfyUI wan2.1 Image-to-Video

2.2 Ручная загрузка моделей

💡

Можно также использовать модель из примера раздела ComfyUI Native, но, похоже, text_encoder не поддерживается.

Диффузионные модели Версия 720P

Версия 480P

Текстовые энкодеры

VAE

CLIP Vision

clip_vision_h.safetensors

Путь для сохранения файлов

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── Wan2_1-I2V-14B-720P_fp8_e4m3fn.safetensors           # Или выбранная вами версия
│   ├── text_encoders/
│   │   └─── umt5-xxl-enc-bf16.safetensors                       # Или выбранная вами версия
│   ├── vae/
│   │   └──  Wan2_1_VAE_fp32.safetensors                         # Или выбранная вами версия
│   └── clip_vision/
│       └──  clip_vision_h.safetensors

2.3 Шаги для запуска рабочего процесса

Wan2.1 Квантованная версия Image-to-Video 480P Workflow Diagram

Убедитесь, что каждый узел загрузил соответствующую модель, используйте ту версию, которую вы скачали.

Пожалуйста, ориентируйтесь на номера на изображении, чтобы убедиться, что каждый узел загрузил соответствующую модель — это необходимо для корректной работы модели:

Убедитесь, что узел WanVideo Model Loader загрузил модель Wan2_1-I2V-14B-720P_fp8_e4m3fn.safetensors
Убедитесь, что узел Load WanVideo T5 TextEncoder загрузил модель umt5-xxl-enc-bf16.safetensors
Убедитесь, что узел WanVideo Vae Loader загрузил модель Wan2_1_VAE_fp32.safetensors
Убедитесь, что узел Load CLIP Vision загрузил модель clip_vision_h.safetensors
Загрузите входное изображение в узле Load Image
Оставьте стандартный или измените prompt в узле WanVideo TextEncode, чтобы скорректировать эффект видео
Нажмите кнопку Run или используйте сочетание клавиш Ctrl(cmd) + Enter(Enter), чтобы запустить генерацию видео

Воркфлоу Wan2.1 GGUF версии

В этой части будет использоваться модель в формате GGUF для генерации видео. Репозиторий моделей: https://huggingface.co/city96/Wan2.1-T2V-14B-gguf/tree/main

Для загрузки соответствующей модели потребуется ComfyUI-GGUF. Пожалуйста, установите необходимые кастомные ноды до начала работы. Вы можете воспользоваться руководством по установке кастомных нод ComfyUI.

💡

Этот рабочий процесс практически идентичен нативной версии ComfyUI, но здесь используется формат GGUF и соответствующая загрузка моделей GGUF для генерации видео. Я также приведу полный список моделей, чтобы пользователи могли быстро найти нужные файлы.

1. Воркфлоу Wan2.1 GGUF: генерация видео по тексту

1.1 Загрузка файла рабочего процесса

Wan2.1 GGUF Version Text-to-Video Workflow

1.2 Ручная загрузка моделей

Выберите файл модели из раздела Diffusion models из списка ниже. city96 предоставляет несколько разных версий моделей. Пожалуйста, перейдите по ссылке https://huggingface.co/city96/Wan2.1-T2V-14B-gguf/tree/main и скачайте подходящую для вас версию. Обычно, чем больше размер файла, тем выше качество, но и требования к устройству тоже выше.

wan2.1-t2v-14b-Q4_K_M.gguf

Выберите версию из Text encoders для загрузки:

VAE

wan_2.1_vae.safetensors

Путь для сохранения файлов

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1-t2v-14b-Q4_K_M.gguf                    # Или выбранная вами версия
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors       # Или выбранная вами версия
│   └── vae/
│       └──  wan_2.1_vae.safetensors

1.3 Шаги для запуска рабочего процесса

Wan2.1 GGUF Версия: рабочий процесс генерации видео по тексту

Убедитесь, что узел Unet Loader(GGUF) загрузил модель wan2.1-t2v-14b-Q4_K_M.gguf
Убедитесь, что узел Load CLIP загрузил модель umt5_xxl_fp8_e4m3fn_scaled.safetensors
Убедитесь, что узел Load VAE загрузил модель wan_2.1_vae.safetensors
В узле CLIP Text Encoder введите описание видео, которое вы хотите сгенерировать
Нажмите кнопку Run или используйте сочетание клавиш Ctrl(cmd) + Enter, чтобы запустить генерацию видео

2. Wan2.1 GGUF: рабочий процесс Image-to-Video

2.1 Загрузка файла рабочего процесса

Wan2.1 GGUF 720P Image-to-Video Workflow

2.2 Ручная загрузка моделей

Выберите файл модели из раздела Diffusion models из списка ниже. city96 предоставляет несколько разных версий моделей. Пожалуйста, перейдите по ссылкам ниже и скачайте подходящую для вас версию. Обычно, чем больше размер файла, тем выше качество, но и требования к устройству тоже выше.

В этом примере используется модель wan2.1-i2v-14b-Q4_K_M.gguf

wan2.1-i2v-14b-Q4_K_M.gguf

Выберите версию из Text encoders для загрузки:

VAE

wan_2.1_vae.safetensors

Путь для сохранения файлов

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1-i2v-14b-Q4_K_M.gguf                    # Или выбранная вами версия
│   ├── text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors       # Или выбранная вами версия
│   └── vae/
│       └──  wan_2.1_vae.safetensors

2.3 Шаги для запуска рабочего процесса

Wan2.1 GGUF Версия: рабочий процесс Image-to-Video

Убедитесь, что в узле Unet Loader(GGUF) загружена модель wan2.1-i2v-14b-Q4_K_M.gguf
Убедитесь, что в узле Load CLIP загружена модель umt5_xxl_fp8_e4m3fn_scaled.safetensors
Убедитесь, что в узле Load VAE загружена модель wan_2.1_vae.safetensors
Убедитесь, что в узле Load CLIP Vision загружена модель clip_vision_h.safetensors
Загрузите входное изображение в узел Load Image
В узле CLIP Text Encoder введите описание, которое вы хотите сгенерировать, или используйте пример из workflow
Нажмите кнопку Run или используйте сочетание клавиш Ctrl(cmd) + Enter(Enter), чтобы запустить генерацию видео

Часто задаваемые вопросы

Как сохранить видео в формате mp4

Рабочий процесс генерации видео по умолчанию сохраняет результат в формате .webp. Если вы хотите сохранить видео в других форматах, например mp4, вы можете воспользоваться узлом video Combine из плагина ComfyUI-VideoHelperSuite. Формат вывода видео

Полезные ссылки

Все модели доступны для скачивания на Hugging Face и ModelScope: