Skip to content
Ayuda a Construir una Mejor Base de Conocimientos de ComfyUI Conviértete en Patrocinador
NoticiasKunlun Wanwei lanza SkyReels-A2 como código abierto: Marco de generación de vídeo de nivel comercial

Kunlun Wanwei lanza SkyReels-A2 como código abierto: Marco de generación de vídeo de nivel comercial

El 6 de abril de 2025, Kunlun Wanwei lanzó oficialmente como código abierto su modelo SkyReels-A2 de reciente desarrollo, el primer marco de generación “Elementos a Vídeo” (Elements-to-Video, E2V) del mundo dirigido a escenarios comerciales. A través de una innovadora arquitectura de doble rama, este marco puede transformar múltiples imágenes de referencia en contenido de vídeo coherente y fluido, marcando la transición de la tecnología de generación de vídeo con IA desde la etapa experimental a la aplicación práctica.

Demostración de SkyReels-A2

Aspectos técnicos destacados: La arquitectura de doble rama supera los cuellos de botella en la generación de vídeo

La innovación central de SkyReels-A2 reside en su sistema único de codificación de características de doble rama:

  • Rama de características espaciales: Utiliza un codificador VAE refinado para procesar imágenes, extrayendo información sobre texturas y detalles de personajes, objetos, fondos y otros elementos, garantizando una alta consistencia entre cada elemento del vídeo generado y las imágenes de referencia.

  • Rama de características semánticas: Utiliza el codificador visual CLIP y capas de proyección MLP para capturar asociaciones semánticas de alto nivel entre elementos, integrándolas en el modelo de difusión mediante mecanismos de atención cruzada para garantizar la coherencia lógica y la continuidad dinámica de las escenas.

Este diseño resuelve con éxito los desafíos técnicos en el control de consistencia de múltiples elementos y la coordinación semántica de escenas complejas que enfrentan los modelos tradicionales de generación de vídeo, haciendo que los vídeos generados sean más fluidos y realistas que muchos modelos comerciales de código cerrado.

Amplias aplicaciones: Potenciación integral desde el comercio electrónico hasta la producción cinematográfica

SkyReels-A2 demuestra un potente potencial de aplicación en múltiples dominios:

  • Comercio electrónico virtual: Simplemente introduciendo una imagen del presentador y fotos de productos se pueden generar vídeos dinámicos de recomendación, resolviendo los problemas de alto costo y largos ciclos de producción de la publicidad tradicional.

  • Producción cinematográfica: Admite combinaciones de múltiples personajes y fondos, capaz de generar escenas interactivas de nivel cinematográfico como escapes grupales en películas de desastres o interacciones entre personajes en dramas, con composición y efectos de iluminación que alcanzan estándares profesionales.

  • Multimedia musical: Puede combinar elementos de fondo y ritmos para generar segmentos de vídeos musicales, proporcionando a músicos independientes herramientas creativas de bajo costo.

Ecosistema de código abierto: Promoviendo la accesibilidad tecnológica en la industria

Este lanzamiento de código abierto es un paso importante en la estrategia de Kunlun Wanwei en el sector del vídeo con IA. Los previamente lanzados SkyReels-V1 (modelo de generación de dramas cortos) y SkyReels-A1 (algoritmo de control de expresión y acción) ya han acumulado un gran ecosistema de desarrolladores. SkyReels-A2 proporciona además:

  • Marco de inferencia eficiente: Una sola GPU RTX 4090 puede generar vídeo de 544p en 80 segundos, con soporte para procesamiento paralelo en múltiples tarjetas y optimización para baja VRAM.

  • Pipeline de procesamiento de datos estructurado: Todo el flujo de trabajo desde la anotación de vídeo, segmentación de elementos hasta el emparejamiento de tripletes está en código abierto, reduciendo significativamente el umbral de aplicación para empresas.

Especificaciones del modelo y parámetros técnicos

SkyReels-A2 ofrece múltiples versiones de modelo para satisfacer las necesidades de diferentes escenarios de aplicación:

  • A2-Wan2.1-14B-Preview (Publicado): Admite la generación de aproximadamente 81 fotogramas a una resolución de 480×832
  • A2-Wan2.1-14B (Próximamente): Versión base con parámetros de vídeo iguales a la versión Preview
  • A2-Wan2.1-14B-Infinity (Próximamente): Admite la generación de vídeos de longitud ilimitada con resolución aumentada a 720×1080

El modelo se basa en una arquitectura de transformador de difusión de vídeo, utilizando un innovador sistema de codificación de doble rama para lograr un control preciso sobre las imágenes de referencia, asegurando alta consistencia de objetos, personajes y elementos de fondo en los vídeos generados.

Planes de desarrollo recientes

El equipo de Kunlun Wanwei ha anunciado planes de desarrollo recientes para SkyReels-A2:

  • Lanzamiento del sistema de evaluación A2-Bench y su tabla de clasificación
  • Publicación de la secuencia completa de modelos, incluyendo versiones que admiten generación de vídeos de longitud ilimitada
  • Optimización del rendimiento de inferencia para GPUs RTX 4090
  • Integración de soporte ComfyUI, facilitando el uso del modelo a través de una interfaz gráfica

Impacto en la industria y perspectivas futuras

El lanzamiento de SkyReels-A2 llena el vacío en capacidades de control de nivel comercial de modelos de generación de vídeo de código abierto y podría cambiar los procesos tradicionales de producción de vídeo. Los expertos de la industria creen que esta tecnología acelerará la popularización de la producción de contenido personalizado y medios interactivos en tiempo real, como la generación de vídeos de comercio electrónico en directo combinando captura de movimiento en tiempo real, o la construcción dinámica de entornos virtuales para escenarios de metaverso.

El equipo de Kunlun Wanwei afirma que continuará optimizando las capacidades del modelo en consistencia temporal de vídeos largos e interacción con motores físicos, y explorará la integración profunda con herramientas de modelado 3D.

Enlaces relacionados

Last updated on