Alibaba выпустила модель Wan-Animate - Единая технология анимации и замены персонажей
Лаборатория Tongyi от Alibaba официально выпустила Wan-Animate - единый фреймворк анимации персонажей на базе Wan2.2. Модель может точно воспроизводить выражения лица и движения персонажа из эталонного видео для генерации высококачественных видео персонажей, а также поддерживает бесшовную интеграцию анимированных персонажей в эталонные видео для замены оригинальных персонажей.
Демонстрационные видео
Основные функции
Wan-Animate предоставляет два основных режима функционирования:
Режим анимации: По заданному изображению персонажа и эталонному видео модель может анимировать персонажа, точно воспроизводя выражения и движения в видео, генерируя высококачественные видео персонажей.
Режим замены: Интегрирует анимированных персонажей в эталонные видео для замены оригинальных персонажей, одновременно воспроизводя освещение и цветовую гамму сцены для бесшовного интеграционного эффекта.
Технические инновации
Единый фреймворк ввода
Wan-Animate построен на основе модели Wan-I2V, используя модифицированную парадигму ввода для различения эталонных условий и областей генерации. Этот дизайн объединяет инъекцию эталонных изображений, временное руководство кадров и выбор режима в универсальное символьное представление, эффективно уменьшая смещение распределения в процессе обучения.
Всеобъемлющая стратегия управления
Модель разделяет управляющие сигналы на две части: движения тела и выражения лица:
- Управление телом: Использует представление на основе скелета, инъецируемое в начальные латентные переменные шума через пространственное выравнивание
- Управление лицом: Непосредственно использует исходные изображения лица из эталонного видео в качестве управляющих сигналов, кодируемых как латентные векторы для разделения информации о выражениях и атрибутах идентичности
Адаптация к окружающему освещению
Для повышения согласованности окружающей среды при замене персонажей команда разработала вспомогательный модуль LoRA для переосвещения. Этот модуль применяет соответствующее окружающее освещение и цветовую гамму, сохраняя при этом согласованность внешнего вида персонажа, достигая более естественных эффектов слияния сцен.
Производительность
Экспериментальные результаты показывают, что Wan-Animate достигает передового уровня по нескольким измерениям оценки:
- Превосходит существующие фреймворки анимации персонажей с открытым исходным кодом по количественным метрикам, таким как SSIM, LPIPS и FVD
- Отлично показывает себя в сравнении с коммерческими решениями, такими как Runway Act-two и Bytedance DreamActor-M1, в человеческих оценках
- Поддерживает произвольные выходные разрешения, сохраняя одинаковое соотношение сторон, что и эталонные видео, в режиме замены
Сценарии применения
Wan-Animate имеет широкий потенциал применения в нескольких областях:
- Кинопроизводство: Воссоздание классических сцен исполнения, преобразование персонажей в разных стилях
- Рекламное творчество: Замена персонажей и редактирование коммерческой фотографии
- Контент коротких видео: Копирование танцевальных движений и генерация динамических движений камеры
- Цифровые аватары: Создание персонализированной анимации персонажей
Технические характеристики
Текущая версия поддерживает следующие спецификации ввода:
- Видеофайлы: менее 200 МБ, разрешение минимальной стороны более 200 пикселей, максимальной стороны менее 2048 пикселей
- Продолжительность видео: 2-30 секунд, соотношение сторон 1:3 до 3:1
- Файлы изображений: менее 5 МБ, поддерживаются форматы jpg, png, jpeg, webp, bmp
Связанные ссылки
С выпуском Wan-Animate Alibaba приносит мощный и удобный инструмент с открытым исходным кодом в область анимации персонажей, что, как ожидается, будет способствовать дальнейшему развитию и распространению связанных технологий.