Laboratorio Tongyi de Alibaba lanza VACE: La creación y edición de vídeo entra en la era unificada
2 de abril de 2025, Hangzhou — El Laboratorio Tongyi del Grupo Alibaba lanzó oficialmente VACE (Video Creation and Editing Framework), el primer marco unificado del mundo para diversas tareas de vídeo. Este marco integra tecnologías multimodales para lograr una cobertura completa desde la generación de texto a vídeo, la edición de vídeo hasta combinaciones de tareas complejas, marcando un avance significativo en la tecnología de vídeo con IA, pasando de funciones aisladas a capacidades inteligentes de extremo a extremo.
Características principales: La “navaja suiza” del vídeo
VACE integra cuatro funcionalidades principales en una plataforma unificada:
- Texto a vídeo (T2V): Genera vídeos dinámicos solo con descripciones de texto. Por ejemplo, “un gato jugando en la hierba” se transforma en una escena vívida.
- Referencia a vídeo (R2V): Genera contenido basado en imágenes o segmentos de vídeo, asegurando la incorporación precisa de elementos específicos (como personajes o escenas particulares).
- Edición de vídeo a vídeo (V2V): Admite ajustes de estilo de vídeo completo (como conversiones de estilo ciberpunk), reconstrucción de color y adición de elementos dinámicos.
- Edición de vídeo a vídeo con máscara (MV2V): Implementa reparaciones locales y expansión de marcos mediante tecnología de máscara espacio-temporal, integrando perfectamente las áreas modificadas con el vídeo original.
Lo más destacable es que VACE admite la combinación libre de estas funcionalidades. Por ejemplo, combinar “generación de imágenes de referencia” con “edición de máscaras” permite creaciones complejas como reemplazo de objetos y transferencia de acciones, rompiendo los límites de las herramientas tradicionales.
Avances técnicos: Tres motores innovadores
Unidad de condición de vídeo (VCU)
Interfaz unificada pionera para entradas multimodales, que convierte datos heterogéneos como texto, imágenes, vídeo y máscaras en flujos de entrada estandarizados, resolviendo los problemas de complejidad del cambio de múltiples modelos en herramientas tradicionales.
Estrategia de desacoplamiento de conceptos
Separación automática de elementos como personajes, fondos y acciones en vídeos para permitir una edición dirigida. Por ejemplo, mantener la escena mientras se reemplaza al personaje principal, evitando rupturas lógicas causadas por la edición tradicional.
Arquitectura de adaptador de contexto
Un núcleo inteligente reconstruido basado en Diffusion Transformer (DiT), que ajusta dinámicamente las estrategias de generación según los requisitos de la tarea. Se centra en los detalles en tareas de reparación y optimiza la atmósfera general en tareas de estilización.
Los datos de prueba muestran que los vídeos 1080P generados por VACE tienen una mejora del 23% en las métricas de continuidad dinámica en comparación con productos similares, y un aumento del 40% en la eficiencia de edición en escenarios complejos.
Escenarios de aplicación: Remodelando la productividad industrial
- Creación de contenido: Los creadores de vídeos cortos pueden generar rápidamente marcos de material a través de “texto + imágenes de referencia”, y luego refinar su trabajo mediante edición local.
- Industria cinematográfica y televisiva: Automatización de la producción de efectos especiales y reparación de defectos. Las pruebas realizadas por una compañía cinematográfica muestran una reducción del 60% en los costos de postproducción.
- Plataformas sociales: Admite la generación con un solo clic de contenido animado personalizado, ya integrado en múltiples aplicaciones sociales del ecosistema de Alibaba.
- Educación y formación: Los profesores pueden generar vídeos instructivos basados en texto e imágenes de material didáctico, y los estudiantes pueden crear materiales de aprendizaje interactivos.
Diseño estratégico: Hito para IA hacia el consumidor
Este lanzamiento es una implementación importante de la estrategia “AI To C” de Alibaba. Desde que el equipo de Tongyi se separó de Alibaba Cloud y se integró en el Grupo de Negocios de Información Inteligente a finales de 2024, su proceso de productización se ha acelerado significativamente. El lanzamiento de VACE no solo llena el vacío en las herramientas de creación de vídeo a nivel de consumidor, sino que también forma una sinergia técnica con el sistema ViDoRAG previamente de código abierto del Laboratorio Tongyi (79.4% de precisión en la comprensión de documentos), construyendo un ciclo cerrado ecológico de IA multimodal.
Un representante del Laboratorio Tongyi declaró: “VACE servirá como un punto de entrada de agente súper inteligente, conectándose a más capacidades del modelo grande Qianwen en el futuro, logrando finalmente una experiencia creativa de ‘piénsalo, obtenlo’.” Actualmente, VACE ha lanzado una versión preliminar, con planes para disponibilidad comercial completa en el tercer trimestre de 2025.
Enlaces relacionados
- Página del proyecto VACE
- Repositorio GitHub
- Artículo de investigación
- Modelos en HuggingFace
- Modelos en ModelScope