Полное руководство по использованию рабочих процессов Wan2.2 Fun Control ComfyUI, официальные и_community версии (Kijai, GGUF)
Этот учебник всесторонне расскажет о различных методах реализации и использования модели генерации видеоконтроля Wan2.2 Fun Control в ComfyUI. Wan2.2 Fun Control - это новое поколение модели генерации видео и контроля, выпущенное Alibaba Cloud. Внедряя инновационный механизм контрольных кодов (Control Codes) в сочетании с глубоким обучением и многомодальным условным вводом, он может генерировать высококачественные видео, соответствующие предустановленным условиям контроля.
Версии и содержание, охватываемые в этом учебнике
Завершенные версии:
- ✅ Официальная нативная версия ComfyUI - Полный рабочий процесс, предоставленный в официальной документации ComfyOrg
- ✅ Версия видеоконтроля Wan2.2 Fun Control 14B - Высококачественная генерация видео многомодального контроля
Готовящиеся версии:
- 🔄 Версия Kijai WanVideoWrapper - Удобная оболочка, разработанная сообществом
- 🔄 Квантованная версия GGUF - Оптимизированная версия для устройств с низкой конфигурацией
Технические особенности модели
Wan2.2 Fun Control основан на архитектуре Wan2.2 и специально оптимизирован для генерации видеоконтроля, с следующими ключевыми особенностями:
Основные преимущества:
- Многомодальный контроль: Поддерживает несколько условий контроля, включая Canny (линейный рисунок), Depth (глубина), OpenPose (поза человека), MLSD (геометрические края) и т.д., а также поддерживает контроль траектории
- Генерация видео высокого качества: Основан на архитектуре Wan2.2, создавая видео кинематографического качества
- Многоязычная поддержка: Поддерживает ввод подсказок на нескольких языках, включая китайский и английский
- Поддержка нескольких разрешений: Поддерживает генерацию видео с разрешениями 512×512, 768×768, 1024×1024, адаптируясь к различным требованиям сценариев
Описание лицензии с открытым исходным кодом
Серия моделей Wan2.2 Fun Control основана на лицензии с открытым исходным кодом Apache2.0, поддерживающей коммерческое использование. Лицензия Apache2.0 позволяет вам свободно использовать, изменять и распространять эти модели, включая коммерческие цели, при условии сохранения оригинального уведомления об авторских правах и текста лицензии.
Обзор версий моделей с открытым исходным кодом Wan2.2 Fun Control
Тип модели | Название модели | Параметры | Основная функция | Репозиторий модели |
---|---|---|---|---|
Видеоконтроль | Wan2.2-Fun-A14B-Control | 14B | Поддерживает различные условия контроля, такие как Canny, Depth, Pose, MLSD и т.д., а также поддерживает контроль траектории | 🤗 Wan2.2-Fun-A14B-Control |
Связанные репозитории кода
- Репозиторий GitHub VideoX-Fun - Официальный полный код реализации
- Официальная документация Wan2.2 Fun Control - Подробное описание модели и руководство по использованию
Руководство по использованию рабочего процесса официальной нативной версии Wan2.2 Fun Control ComfyUI
Описание версии
Официальная нативная версия ComfyUI предоставлена командой ComfyOrg, используя переупакованные файлы модели для обеспечения оптимальной совместимости с ComfyUI. Эта версия поддерживает как стандартный режим, так и режим ускорения Lightx2v LoRA в 4 шага.
Тест сравнения производительности
Ниже приведены результаты тестирования с использованием GPU RTX4090D 24GB VRAM для разрешения 640*640 и длины 81 кадр:
Тип модели | Разрешение | Использование VRAM | Время первой генерации | Время второй генерации |
---|---|---|---|---|
fp8_scaled | 640×640 | 83% | ≈ 524 секунды | ≈ 520 секунд |
fp8_scaled + ускорение LoRA в 4 шага | 640×640 | 89% | ≈ 138 секунд | ≈ 79 секунд |
Поскольку используется LoRA в 4 шага, пользовательский опыт для пользователей, впервые использующих рабочий процесс, лучше, но это может привести к потере динамики видео. Мы включили версию ускоренного LoRA по умолчанию. Если вам нужно включить другой набор рабочих процессов, выберите его и используйте Ctrl+B для включения.
1. Рабочий процесс генерации видеоконтроля Wan2.2 Fun Control ComfyUI
Метод получения рабочего процесса
Скачайте видео или файл JSON ниже и перетащите его в ComfyUI, чтобы загрузить соответствующий рабочий процесс
Скачать рабочий процесс в формате JSON
Пожалуйста, скачайте изображения и видео ниже, которые мы будем использовать в качестве входных данных.
Здесь мы используем предварительно обработанное видео, которое можно напрямую использовать для генерации видео контроля
Скачивание файлов модели
Вы можете найти следующие модели в Wan_2.2_ComfyUI_Repackaged
Модель диффузии
- wan2.2_fun_control_high_noise_14B_fp8_scaled.safetensors
- wan2.2_fun_control_low_noise_14B_fp8_scaled.safetensors
Wan2.2-Lightning LoRA (Необязательно, для ускорения)
- wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
- wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
VAE
Текстовый энкодер
ComfyUI/
├───📂 models/
│ ├───📂 diffusion_models/
│ │ ├─── wan2.2_fun_control_low_noise_14B_fp8_scaled.safetensors
│ │ └─── wan2.2_fun_control_high_noise_14B_fp8_scaled.safetensors
│ ├───📂 loras/
│ │ ├─── wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
│ │ └─── wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
│ ├───📂 text_encoders/
│ │ └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ └───📂 vae/
│ └── wan_2.1_vae.safetensors
Подробные шаги операции
Этот рабочий процесс использует LoRA, пожалуйста, убедитесь, что соответствующая модель Diffusion и LoRA согласованы. Модели и LoRA с высоким и низким уровнем шума должны использоваться соответственно.
- Загрузка модели высокий уровень шума и LoRA
- Убедитесь, что узел
Load Diffusion Model
загружает модельwan2.2_fun_control_high_noise_14B_fp8_scaled.safetensors
- Убедитесь, что узел
LoraLoaderModelOnly
загружаетwan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
- Загрузка модели низкий уровень шума и LoRA
- Убедитесь, что узел
Load Diffusion Model
загружает модельwan2.2_fun_control_low_noise_14B_fp8_scaled.safetensors
- Убедитесь, что узел
LoraLoaderModelOnly
загружаетwan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
- Убедитесь, что узел
Load CLIP
загружает модельumt5_xxl_fp8_e4m3fn_scaled.safetensors
- Убедитесь, что узел
Load VAE
загружает модельwan_2.1_vae.safetensors
- Загрузите начальный кадр в узле
Load Image
- Во втором узле
Load video
контролируйте видео позы. Предоставленное видео было предварительно обработано и может использоваться напрямую - Поскольку видео, которое мы предоставляем, является предварительно обработанным видео позы, соответствующие узлы предварительной обработки видеоизображений должны быть отключены. Вы можете выбрать их и использовать Ctrl + B` для отключения
- Измените Prompt - поддерживаются как китайский, так и английский языки
- В
Wan22FunControlToVideo
измените соответствующий размер видео. По умолчанию установлено разрешение 640*640, чтобы избежать чрезмерного потребления времени для пользователей с низкой VRAM, использующих этот рабочий процесс - Нажмите кнопку
Run
или используйте сочетание клавишCtrl(cmd) + Enter
для выполнения генерации видео
Дополнительные примечания
Поскольку во встроенных узлах ComfyUI узлы препроцессора имеют только препроцессоры Canny, вы можете использовать подобные ComfyUI-comfyui_controlnet_aux для реализации других типов предварительной обработки изображений
Рабочий процесс ComfyUI Wan2.2 Fun Control Kijai WanVideoWrapper
Этот контент готовится и будет обновлен в ближайшее время.
Эта часть учебника расскажет об удобном методе использования Kijai/ComfyUI-WanVideoWrapper.
Связанный репозиторий модели: https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled
Рабочий процесс ComfyUI квантованной версии GGUF Wan2.2 Fun Control
Этот контент готовится и будет обновлен в ближайшее время.
Версия GGUF подходит для пользователей с ограниченной VRAM, предоставляя следующие ресурсы:
QuantStack/Wan2.2-Fun-A14B-Control-GGUF
Связанные пользовательские узлы: City96/ComfyUI-GGUF