ComfyUI Sonic: рабочий процесс генерации цифрового человека на видео

Sonic — это открытая модель цифрового человека от Tencent, которая позволяет создавать видео на основе изображений и аудиофайлов.

Вот основные ссылки, связанные с Sonic: Страница проекта: https://jixiaozhong.github.io/Sonic/ Онлайн-демо: http://demo.sonic.jixiaozhong.online/ Исходный код: https://github.com/jixiaozhong/Sonic

Недавно участники сообщества завершили интеграцию плагина. Это руководство основано на плагине ComfyUI_Sonic и позволяет воспроизвести официальные примеры Sonic.

💡

В настоящее время у меня возникают некоторые сложности с запуском этого рабочего процесса. Я обновлю это руководство и добавлю инструкции после завершения тестирования.

1. Установка плагина ComfyUI Sonic

Для работы этого процесса необходимы следующие плагины. Пожалуйста, убедитесь, что вы установили все плагины и зависимости, либо установите недостающие узлы через ComfyUI-manager после загрузки рабочего процесса:

ComfyUI_Sonic: https://github.com/smthemex/ComfyUI_Sonic ComfyUI-VideoHelperSuite: https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite

Если вы не знакомы с процессом установки, обратитесь к руководству по установке плагинов ComfyUI

2. Загрузка и установка моделей Sonic

В репозитории плагина доступны ссылки для скачивания моделей. Если приведённые ниже ссылки недействительны или недоступны, пожалуйста, проверьте репозиторий автора плагина на наличие обновлений.

Модели необходимо сохранять по следующим путям:

📁ComfyUI
├── 📁models
│   ├── 📁checkpoints
│   │      └── 📁video                         //  папка video для классификации моделей (необязательно)
│   │           └── svd_xt_1_1.safetensors     // файл модели svd_xt.safetensors или svd_xt_1_1.safetensors
│   └── 📁sonic                                // создайте новую папку sonic, сохраните сюда всё содержимое из Google Drive
│       ├── 📁 whisper-tiny                            
│       │   ├── config.json 
│       │   ├── model.safetensors
│       │   └── preprocessor_config.json
│       ├── 📁 RIFE  
│       │   └── flownet.pkl
│       ├── audio2bucket.pth
│       ├── audio2token.pth
│       ├── unet.pth
│       └── yoloface_v5m.pt

2.1 Выберите одну из моделей Stable Video Diffusion:

svd_xt_1_1.safetensors https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt-1-1/tree/main svd_xt_1_1.safetensors https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt-1-1/tree/main

2.2 Скачайте модели, связанные с Sonic

Перейдите по следующей ссылке и скачайте все ресурсы из папки: Модели Sonic: https://drive.google.com/drive/folders/1oe8VTPUy0-MHHW2a_NJ1F8xL-0VN5G7W

2.3 Скачайте модель whisper-tiny

whisper-tiny https://huggingface.co/openai/whisper-tiny/tree/main

Скачайте только эти три файла:

config.json
model.safetensors
preprocessor_config.json

Ресурсы для рабочего процесса (workflow) ComfyUI Sonic

Пожалуйста, скачайте следующие аудиофайлы, изображения и файлы рабочего процесса, либо используйте свои материалы: Изображение: Sonic input anime

Аудио: скачайте любой пример аудио по ссылке: https://github.com/smthemex/ComfyUI_Sonic/tree/main/examples/wav

Объяснение рабочего процесса (workflow) ComfyUI Sonic

Sonic Workflow

В позиции 1 загрузите модель stable video diffusion, например svd_xt_1_1.safetensors
В позиции 2 загрузите аудиофайл
В позиции 3 загрузите пример изображения
В позиции 4 загрузите файл модели unet.pth
Используйте Queue или сочетание клавиш Ctrl(Command)+Enter, чтобы запустить рабочий процесс для генерации изображения

Устранение неполадок

Проблема с версией transformers Так как этот плагин требует transformers==4.43.2, если ваш рабочий процесс не запускается корректно, пожалуйста, измените:

📁ComfyUI
├── 📁custom_nodes
│   └── 📁ComfyUI_Sonic           // Папка с плагином
│       └── requirements.txt      // Файл зависимостей плагина

Пожалуйста, измените в requirements.txt из:

#transformers ==4.43.2

Удалите #

transformers ==4.43.2

Затем перезапустите ComfyUI или используйте pip для установки зависимости

frame_rate type mismatch issue Я столкнулся с проблемой несоответствия типа numeric в последнем узле. Я попытался использовать узел типа primitive в качестве входного параметра

Кроме того, так как мы всё ещё тестируем этот рабочий процесс (workflow), если у вас есть более эффективные решения, пожалуйста, оставьте комментарий. Я оперативно обновлю этот учебник.