Wan2.2-S2V: Modelo de Generación de Video Impulsado por Audio Lanzado

Wan2.2-S2V es un modelo de generación de video con IA que puede convertir imágenes estáticas y entradas de audio en contenido de video. El modelo puede generar videos de hasta nivel de minutos en una sola generación, proporcionando nuevas soluciones para la creación de video en transmisiones en vivo de humanos digitales, producción cinematográfica e industrias educativas.

El modelo se desempeña bien en escenarios de aplicación de cine y televisión, capaz de generar expresiones faciales, movimientos corporales y lenguaje de cámara. Soporta generación de personajes de cuerpo completo y medio cuerpo, capaz de completar diversas necesidades de creación de contenido como diálogo, canto y actuación.

Características Técnicas

Imagen + Audio = Generación de Video Wan2.2-S2V utiliza métodos de entrada combinados de imagen y audio, generando contenido de video a través de una imagen estática y un clip de audio. El modelo soporta personas reales, caricaturas, animales, humanos digitales y otros tipos de imágenes, y soporta formatos de retrato, medio cuerpo y cuerpo completo. Después de subir un clip de audio, el modelo puede hacer que el sujeto principal en la imagen realice acciones como hablar, cantar y actuar.

Generación de Video Impulsada por Audio El modelo puede generar videos basados en entrada de audio, apoyando generación de escenas de diálogo y narrativas. A través de la entrada de audio, el modelo puede controlar sincronización de labios, expresiones y movimientos de personajes, logrando sincronización de audio-video.

Función de Control de Texto Wan2.2-S2V también soporta control de texto, permitiendo control de escenas de video a través de entrada de Prompt, permitiendo cambios en movimientos de sujetos de video y fondos. Por ejemplo, subiendo una foto de alguien tocando piano, una canción y una descripción de texto, el modelo puede generar un video de interpretación de piano, manteniendo consistencia de personaje con la imagen original, sincronizando expresiones faciales y movimientos de boca con audio, y haciendo coincidir movimientos de dedos con ritmo de audio.

Arquitectura Técnica

Wan2.2-S2V está basado en el modelo base de generación de video Tongyi Wanxiang, combinando control de movimiento global guiado por texto y control de movimiento local impulsado por audio para lograr generación de video impulsada por audio. El modelo adopta mecanismos de control AdaIN y CrossAttention para mejorar efectos de control de audio.

Para soportar generación de video largo, Wan2.2-S2V usa tecnología de compresión de frames jerárquica para reducir el conteo de tokens de frames históricos, extendiendo motion frames (frames de referencia históricos) de varios frames a 73 frames, logrando generación estable de video largo.

En entrenamiento, el equipo construyó un conjunto de datos de más de 600,000 segmentos de audio-video, usando entrenamiento paralelo mixto para entrenamiento de parámetros completos. El modelo soporta entrenamiento e inferencia multi-resolución, adaptándose a diferentes requisitos de generación de video de resolución.

Métricas de Rendimiento

Los datos de prueba muestran que Wan2.2-S2V se desempeña bien en múltiples métricas de evaluación:

FID (Calidad de Video): 15.66
EFID (Autenticidad de Expresión): 0.283
CSIM (Consistencia de Identidad): 0.677
SSIM (Similitud Estructural): 0.734
PSNR (Relación Señal-Ruido Pico): 20.49

Estas métricas indican que Wan2.2-S2V se desempeña bien en calidad de video, autenticidad de expresión y consistencia de identidad.

Escenarios de Aplicación

Wan2.2-S2V es adecuado para varios escenarios de creación de contenido profesional:

Producción Cinematográfica: Soporta generación de escenas de diálogo y narrativas de películas
Videos Musicales: Puede generar videos de interpretación musical sincronizados basados en audio
Contenido Educativo: Soporta generación automatizada de videos educativos
Contenido de Entretenimiento: Aplicable a varios videos de entretenimiento y actuación

Características Técnicas

Las principales características técnicas de Wan2.2-S2V incluyen:

Sincronización Audio-Video: Logra sincronización audio-video a través de pipeline de procesamiento de audio
Generación de Expresión y Movimiento: Puede generar expresiones faciales y movimientos corporales
Control de Cámara: Soporta diferentes ángulos de cámara y lenguaje de lente
Soporte Multi-Resolución: Se adapta a diferentes requisitos de generación de video de resolución

Código Abierto y Experiencia

Direcciones de Código Abierto:

Direcciones de Experiencia:

Wan2.2-S2V proporciona nuevas soluciones técnicas para el campo de generación de video con IA, ofreciendo a los creadores de contenido herramientas para generación de video impulsada por audio. El modelo tiene potencial de aplicación en producción cinematográfica, producción de videos musicales y otros campos.