Wan2.2-S2V: Выпущена модель генерации видео на основе аудио
Wan2.2-S2V - это модель генерации видео с ИИ, которая может преобразовывать статические изображения и аудиовходы в видеоконтент. Модель может генерировать видео продолжительностью до минутного уровня за одну генерацию, предоставляя новые решения для создания видео в отраслях цифрового человеческого стриминга, кинопроизводства и образования.
Модель хорошо работает в сценариях применения кино и телевидения, способна генерировать мимику, движения тела и язык камеры. Она поддерживает генерацию персонажей в полный рост и по пояс, способна выполнять различные потребности в создании контента, такие как диалог, пение и выступление.
Технические характеристики
Изображение + Аудио = Генерация видео Wan2.2-S2V использует комбинированные методы ввода изображения и аудио, генерируя видеоконтент через статическое изображение и аудиоклип. Модель поддерживает реальных людей, мультфильмы, животных, цифровых людей и другие типы изображений, а также поддерживает форматы портрета, по пояс и в полный рост. После загрузки аудиоклипа модель может заставить основной объект на изображении выполнять действия, такие как разговор, пение и выступление.
Генерация видео на основе аудио Модель может генерировать видео на основе аудиовхода, поддерживая генерацию диалоговых и повествовательных сцен. Через аудиовход модель может контролировать синхронизацию губ, выражения и движения персонажей, достигая синхронизации аудио-видео.
Функция текстового управления Wan2.2-S2V также поддерживает текстовое управление, позволяя контролировать видеосцены через ввод Prompt, позволяя изменения в движениях видеосубъектов и фонах. Например, загрузив фотографию кого-то, играющего на пианино, песню и текстовое описание, модель может сгенерировать видео выступления на пианино, сохраняя согласованность персонажа с исходным изображением, синхронизируя мимику и движения рта с аудио, и сопоставляя движения пальцев с аудиоритмом.
Техническая архитектура
Wan2.2-S2V основана на базовой модели генерации видео Tongyi Wanxiang, объединяя управление глобальным движением, направляемое текстом, и управление локальным движением на основе аудио для достижения генерации видео на основе аудио. Модель принимает механизмы управления AdaIN и CrossAttention для улучшения эффектов аудиоуправления.
Для поддержки генерации длинных видео Wan2.2-S2V использует иерархическую технологию сжатия кадров для уменьшения количества токенов исторических кадров, расширяя motion frames (исторические опорные кадры) с нескольких кадров до 73 кадров, достигая стабильной генерации длинных видео.
В обучении команда построила набор данных из более чем 600 000 аудио-видео сегментов, используя смешанное параллельное обучение для полного параметрического обучения. Модель поддерживает многоразрешающее обучение и вывод, адаптируясь к различным требованиям генерации видео с разным разрешением.
Метрики производительности
Данные тестирования показывают, что Wan2.2-S2V хорошо работает по нескольким метрикам оценки:
- FID (Качество видео): 15.66
- EFID (Аутентичность выражения): 0.283
- CSIM (Согласованность идентичности): 0.677
- SSIM (Структурное сходство): 0.734
- PSNR (Пиковое отношение сигнал-шум): 20.49
Эти метрики указывают на то, что Wan2.2-S2V хорошо работает в качестве видео, аутентичности выражения и согласованности идентичности.
Сценарии применения
Wan2.2-S2V подходит для различных сценариев профессионального создания контента:
- Кинопроизводство: Поддерживает генерацию диалоговых и повествовательных сцен фильмов
- Музыкальные видео: Может генерировать синхронизированные музыкальные видео выступлений на основе аудио
- Образовательный контент: Поддерживает автоматизированную генерацию образовательных видео
- Развлекательный контент: Применим к различным развлекательным и выступленческим видео
Технические характеристики
Основные технические характеристики Wan2.2-S2V включают:
- Синхронизация аудио-видео: Достигает синхронизации аудио-видео через конвейер обработки аудио
- Генерация выражения и движения: Может генерировать мимику и движения тела
- Управление камерой: Поддерживает различные углы камеры и язык объектива
- Поддержка многоразрешения: Адаптируется к различным требованиям генерации видео с разным разрешением
Открытый исходный код и опыт
Адреса открытого исходного кода:
Адреса опыта:
Wan2.2-S2V предоставляет новые технические решения для области генерации видео с ИИ, предлагая создателям контента инструменты для генерации видео на основе аудио. Модель имеет потенциал применения в кинопроизводстве, производстве музыкальных видео и других областях.