Lanzamiento de VACE por el Laboratorio de Inteligencia Artificial de Alibaba: Modelo Integrado de Creación y Edición de Video

El Laboratorio de Inteligencia Artificial de Alibaba lanzó el 11 de marzo el nuevo modelo de creación y edición de video VACE (Video Creation and Editing), una herramienta de IA que integra múltiples funciones de procesamiento de video en un solo marco, con el objetivo de simplificar el proceso de creación de videos.

Principales características

La principal ventaja del modelo VACE radica en su capacidad de "todo en uno", que integra tareas complejas que tradicionalmente requerían múltiples herramientas en un solo marco. Las funciones específicas incluyen:

Marco unificado para múltiples tareas

Texto a video (T2V): Genera contenido de video correspondiente a partir de descripciones textuales.
Referencia a video (R2V): Genera videos que contienen sujetos específicos basados en imágenes o muestras de video.
Edición de video (V2V): Permite ajustes globales como la transformación de estilo de video y la adición de elementos dinámicos.
Edición de video con máscara (MV2V): Modifica áreas específicas de video utilizando máscaras temporales y espaciales.

Capacidad de combinación creativa flexible

<video controls className="w-full aspect-video" src="https://ali-vilab.github.io/VACE-Page/assets/videos/SwapAnything_2.mp4"

La característica más destacada de VACE es su soporte para "edición universal", permitiendo a los usuarios combinar diferentes funciones de manera flexible:

Mover cualquier objeto: Ajusta la trayectoria de movimiento de los objetos en el video.
Reemplazar cualquier objeto: Sustituye personajes u objetos en el video por referencias específicas.
Expandir cualquier imagen: Amplía los bordes del video o llena contenido.
Animar cualquier objeto estático: Da a las imágenes estáticas un efecto de movimiento natural.

Aspectos técnicos destacados

El modelo VACE incorpora varias tecnologías innovadoras:

Unidad condicional de video: Procesa de manera unificada entradas multimodales como texto, imágenes, videos y máscaras.
Estrategia de desacoplamiento de conceptos: Separa automáticamente los elementos en el video (como personajes, fondos y acciones), permitiendo modificaciones independientes.
Estructura de adaptador contextual: Basada en la arquitectura de transformadores de difusión, ajusta dinámicamente las estrategias de generación para adaptarse a diferentes tareas.

Escenarios de aplicación práctica

Este modelo puede aplicarse ampliamente en:

Producción rápida de videos cortos para redes sociales.
Creación de contenido publicitario y de marketing.
Producción y postproducción de efectos especiales en cine.
Generación de videos para educación y capacitación.

Equipo de desarrollo

VACE fue desarrollado por el equipo de investigación del Laboratorio de Inteligencia Artificial de Alibaba, cuyos miembros clave incluyen: Zeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan y Yu Liu.

Desarrollo futuro

El equipo de desarrollo ha declarado que VACE continuará optimizándose en el futuro:

Mejorar la calidad y coherencia de la generación de videos.
Ampliar las capacidades de edición en tiempo real.
Mejorar las funciones de generación 3D.
Explorar la interacción mediante comandos de voz.

El lanzamiento de VACE representa un paso importante hacia la simplificación e integración de herramientas de creación de videos con IA, lo que se espera reduzca significativamente la barrera de entrada para la creación de videos, proporcionando herramientas más accesibles para los creadores de contenido.