Лаборатория Ali Tongyi выпускает VACE: универсальная модель для создания и редактирования видео

11 марта лаборатория Tongyi представила свою новую модель создания и редактирования видео VACE (Video Creation and Editing) — ИИ-инструмент, который объединяет несколько функций обработки видео в одной платформе, с целью упростить создание видео с помощью единой системы.

Основные возможности

Ключевое преимущество модели VACE — это "единая точка входа" для сложных задач, которые традиционно требуют использования нескольких инструментов. Конкретные функции включают:

Унифицированная многозадачная платформа

Текст-в-видео (T2V): Генерация соответствующего видеоконтента напрямую по текстовому описанию
Референс-в-видео (R2V): Генерация видео с заданными объектами на основе изображений или видео-примеров
Видео-в-видео (V2V): Реализация конвертации стиля видео, добавления динамических элементов и других глобальных изменений
Маскированное видео-в-видео (MV2V): Модификация отдельных областей видео с помощью пространственно-временных масок

Гибкие возможности комбинированного творчества

<video controls className="w-full aspect-video" src="https://ali-vilab.github.io/VACE-Page/assets/videos/SwapAnything_2.mp4"

Самая отличительная особенность VACE — поддержка "универсального редактирования", позволяющая пользователям гибко комбинировать различные функции:

Move Anything: Изменение траектории движения объектов в видео
Swap Anything: Замена персонажей или объектов в видео на заданные референсы
Expand Anything: Расширение границ видео или заполнение контента
Animate Anything: Придание статическим изображениям естественных движений

Технические особенности

Модель VACE использует ряд инновационных технологий:

Video Condition Unit: Унифицированная обработка мультимодальных входов, таких как текст, изображения, видео и маски
Стратегия разделения концепций: Автоматическое разделение элементов в видео (например, персонажи, фон, действия), поддержка независимого редактирования
Структура адаптера контекста: Основана на архитектуре Diffusion Transformer, динамически настраивает стратегию генерации под разные задачи

Практические сценарии применения

Эта модель может широко применяться для:

Быстрого производства коротких видео для соцсетей
Создания рекламного и маркетингового контента
Постпродакшна фильмов и обработки спецэффектов
Генерации обучающих видео

Команда разработчиков

VACE разработана исследовательской командой лаборатории Tongyi, в которую входят: Zeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan и Yu Liu.

Дальнейшее развитие

Команда разработчиков заявляет, что VACE будет и дальше оптимизироваться:

Улучшение качества и согласованности генерации видео
Расширение возможностей редактирования в реальном времени
Усиление функций 3D-генерации
Исследование голосового управления

Запуск VACE — важный шаг в развитии инструментов ИИ для создания видео в сторону удобства и интеграции, что должно значительно снизить порог для видеотворчества и предоставить авторам более удобные инструменты.