Лаборатория Tongyi Alibaba выпускает VACE: создание и редактирование видео вступает в эпоху унификации

2 апреля 2025 года, Ханчжоу — Лаборатория Tongyi группы Alibaba официально выпустила VACE (Video Creation and Editing Framework), первую в мире унифицированную платформу для разнообразных задач с видео. Эта платформа интегрирует мультимодальные технологии для достижения полного покрытия от генерации видео из текста, редактирования видео до сложных комбинаций задач, что знаменует значительный прогресс в технологии ИИ-видео от изолированных функций к интеллектуальным сквозным возможностям. VACE Teaser

Основные функции: "Швейцарский нож" для видео

VACE интегрирует четыре основные функции в унифицированную платформу:

Текст-в-видео (T2V): Генерировать динамические видео только с текстовыми описаниями. Например, "кот играет в траве" превращается в яркую сцену.
Референс-в-видео (R2V): Генерировать контент на основе изображений или видеофрагментов, обеспечивая точное включение указанных элементов (таких как конкретные персонажи или сцены).
Редактирование видео-в-видео (V2V): Поддерживать полные стилевые настройки видео (например, конверсии в стиле киберпанк), реконструкцию цвета и добавление динамических элементов.
Редактирование замаскированного видео-в-видео (MV2V): Реализовать локальные ремонты и расширение кадров через пространственно-временную маску технологию, безупречно интегрируя модифицированные области с оригинальным видео.

Наиболее примечательно, что VACE поддерживает свободную комбинацию этих функций. Например, комбинирование "генерации по референсному изображению" с "редактированием маски" позволяет создавать сложные творения, такие как замена объектов и передача действий, разрывая границы традиционных инструментов.

Технические прорывы: три инновационных движка

Блок условий видео (VCU)

Пионерство в унифицированном интерфейсе для мультимодальных входов, конвертируя гетерогенные данные, такие как текст, изображения, видео и маски, в стандартизированные входные потоки, решая проблемы сложности множественного переключения моделей в традиционных инструментах.

Стратегия разделения концепций

Автоматическое разделение элементов, таких как персонажи, фоны и действия в видео, для обеспечения целевого редактирования. Например, сохранение сцены при замене главного персонажа, избегая логических разрывов, вызванных традиционным редактированием.

Архитектура контекстного адаптера

Интеллектуальное ядро, реконструированное на основе Diffusion Transformer (DiT), динамически настраивающее стратегии генерации в соответствии с требованиями задач. Оно фокусируется на деталях в задачах ремонта и оптимизирует общую атмосферу в задачах стилизации.

Тестовые данные показывают, что видео 1080P, сгенерированные VACE, имеют улучшение на 23% в метриках динамической непрерывности по сравнению с аналогичными продуктами, и увеличение на 40% в эффективности редактирования в сложных сценариях.

Сценарии применения: переосмысление производительности отрасли

Создание контента: Создатели коротких видео могут быстро генерировать материальные фреймворки через "текст + референсные изображения", затем совершенствовать свою работу через локальное редактирование.
Кино- и телеиндустрия: Автоматизация производства спецэффектов и ремонта дефектов. Тесты кинокомпании показывают снижение затрат на постпродакшн на 60%.
Социальные платформы: Поддерживает однокликовую генерацию персонализированного анимированного контента, уже интегрированного в несколько социальных приложений в экосистеме Alibaba.
Образование и обучение: Учителя могут генерировать обучающие видео на основе текста и изображений курсов, а студенты могут создавать интерактивные учебные материалы.

Стратегическая компоновка: веха для ИИ To C

Этот релиз является важной реализацией стратегии Alibaba "ИИ To C". С тех пор как команда Tongyi была выделена из Alibaba Cloud и интегрирована в Группу интеллектуального информационного бизнеса в конце 2024 года, процесс продуктивизации значительно ускорился. Запуск VACE не только заполняет пробел в инструментах создания видео потребительского уровня, но и формирует техническую синергию с ранее открытым исходным кодом системой ViDoRAG лаборатории Tongyi (79.4% точность понимания документов), строя мультимодальный ИИ-экологический замкнутый цикл.

Представитель лаборатории Tongyi заявил: "VACE будет служить супер-интеллектуальной точкой входа агента, подключаясь к большему количеству возможностей больших моделей Qianwen в будущем, в конечном итоге достигая творческого опыта 'думай об этом, получай это'". В настоящее время VACE запустил предварительную версию, с планами полной коммерческой доступности в третьем квартале 2025 года.