Wan2.2-S2V: Выпущена модель генерации видео на основе аудио

Demo

Wan2.2-S2V - это модель генерации видео с ИИ, которая может преобразовывать статические изображения и аудиовходы в видеоконтент. Модель может генерировать видео продолжительностью до минутного уровня за одну генерацию, предоставляя новые решения для создания видео в отраслях цифрового человеческого стриминга, кинопроизводства и образования.

Модель хорошо работает в сценариях применения кино и телевидения, способна генерировать мимику, движения тела и язык камеры. Она поддерживает генерацию персонажей в полный рост и по пояс, способна выполнять различные потребности в создании контента, такие как диалог, пение и выступление.

Технические характеристики

Изображение + Аудио = Генерация видео Wan2.2-S2V использует комбинированные методы ввода изображения и аудио, генерируя видеоконтент через статическое изображение и аудиоклип. Модель поддерживает реальных людей, мультфильмы, животных, цифровых людей и другие типы изображений, а также поддерживает форматы портрета, по пояс и в полный рост. После загрузки аудиоклипа модель может заставить основной объект на изображении выполнять действия, такие как разговор, пение и выступление.

Генерация видео на основе аудио Модель может генерировать видео на основе аудиовхода, поддерживая генерацию диалоговых и повествовательных сцен. Через аудиовход модель может контролировать синхронизацию губ, выражения и движения персонажей, достигая синхронизации аудио-видео.

Функция текстового управления Wan2.2-S2V также поддерживает текстовое управление, позволяя контролировать видеосцены через ввод Prompt, позволяя изменения в движениях видеосубъектов и фонах. Например, загрузив фотографию кого-то, играющего на пианино, песню и текстовое описание, модель может сгенерировать видео выступления на пианино, сохраняя согласованность персонажа с исходным изображением, синхронизируя мимику и движения рта с аудио, и сопоставляя движения пальцев с аудиоритмом.

Техническая архитектура

Wan2.2-S2V основана на базовой модели генерации видео Tongyi Wanxiang, объединяя управление глобальным движением, направляемое текстом, и управление локальным движением на основе аудио для достижения генерации видео на основе аудио. Модель принимает механизмы управления AdaIN и CrossAttention для улучшения эффектов аудиоуправления.

Для поддержки генерации длинных видео Wan2.2-S2V использует иерархическую технологию сжатия кадров для уменьшения количества токенов исторических кадров, расширяя motion frames (исторические опорные кадры) с нескольких кадров до 73 кадров, достигая стабильной генерации длинных видео.

В обучении команда построила набор данных из более чем 600 000 аудио-видео сегментов, используя смешанное параллельное обучение для полного параметрического обучения. Модель поддерживает многоразрешающее обучение и вывод, адаптируясь к различным требованиям генерации видео с разным разрешением.

Метрики производительности

Данные тестирования показывают, что Wan2.2-S2V хорошо работает по нескольким метрикам оценки:

FID (Качество видео): 15.66
EFID (Аутентичность выражения): 0.283
CSIM (Согласованность идентичности): 0.677
SSIM (Структурное сходство): 0.734
PSNR (Пиковое отношение сигнал-шум): 20.49

Эти метрики указывают на то, что Wan2.2-S2V хорошо работает в качестве видео, аутентичности выражения и согласованности идентичности.

Сценарии применения

Wan2.2-S2V подходит для различных сценариев профессионального создания контента:

Кинопроизводство: Поддерживает генерацию диалоговых и повествовательных сцен фильмов
Музыкальные видео: Может генерировать синхронизированные музыкальные видео выступлений на основе аудио
Образовательный контент: Поддерживает автоматизированную генерацию образовательных видео
Развлекательный контент: Применим к различным развлекательным и выступленческим видео

Технические характеристики (Результаты)

Основные технические характеристики Wan2.2-S2V включают:

Синхронизация аудио-видео: Достигает синхронизации аудио-видео через конвейер обработки аудио
Генерация выражения и движения: Может генерировать мимику и движения тела
Управление камерой: Поддерживает различные углы камеры и язык объектива
Поддержка многоразрешения: Адаптируется к различным требованиям генерации видео с разным разрешением

Открытый исходный код и опыт

Адреса открытого исходного кода:

Адреса опыта:

Wan2.2-S2V предоставляет новые технические решения для области генерации видео с ИИ, предлагая создателям контента инструменты для генерации видео на основе аудио. Модель имеет потенциал применения в кинопроизводстве, производстве музыкальных видео и других областях.