Lanzamiento de SkyReels-V2: Modelo de código abierto para generar videos de longitud infinita
El equipo de SkyworkAI ha lanzado recientemente un nuevo modelo de generación de video, SkyReels-V2, un proyecto revolucionario de código abierto capaz de generar videos de calidad cinematográfica con una longitud teóricamente infinita. El modelo emplea un innovador marco de “Forzado de Difusión” (Diffusion Forcing) y admite métodos de generación tanto de texto a video (T2V) como de imagen a video (I2V).
Características principales
SkyReels-V2 aporta múltiples innovaciones al campo de la generación de videos:
- Generación de videos de longitud infinita: Mediante la tecnología de forzado de difusión, el modelo puede generar videos de longitud teóricamente ilimitada
- Soporte de entrada multimodal: Compatible tanto con funcionalidades de texto a video como de imagen a video
- Resultados visuales de alta calidad: En evaluaciones humanas, su rendimiento visual se acerca a modelos comerciales de código cerrado como Kling-1.6 y Runway Gen-4
- Totalmente de código abierto y apto para uso comercial: Tanto el código como los pesos del modelo están disponibles en código abierto y se pueden utilizar en proyectos comerciales
- Modelo de subtitulado de video: También incluye SkyCaptioner-V1, un modelo especializado para la comprensión de videos
Series de modelos
SkyReels-V2 ofrece múltiples variantes de modelos con diferentes tamaños y resoluciones:
- Modelos de Forzado de Difusión (DF): Diseñados específicamente para la generación de videos de longitud infinita, disponibles en versiones 1.3B-540P y 14B-720P
- Modelos de Texto a Video (T2V): Centrados en generar videos de alta calidad a partir de indicaciones de texto
- Modelos de Imagen a Video (I2V): Capaces de generar secuencias de video coherentes a partir de imágenes de entrada
Aspectos técnicos destacados
SkyReels-V2 emplea varias tecnologías avanzadas:
- Captionador de Video (SkyCaptioner-V1): Ajustado a partir del modelo Qwen2.5-VL-7B-Instruct, supera significativamente a los modelos existentes en la comprensión de contenido de video
- Aprendizaje por refuerzo: Optimiza la calidad del movimiento para abordar problemas con movimientos grandes y deformables y el cumplimiento de las leyes físicas
- Forzado de Difusión: Una estrategia innovadora de entrenamiento y muestreo que permite niveles de ruido independientes para cada token
- Ajuste fino supervisado de alta calidad: Mejora la calidad visual a través de un proceso de ajuste fino en dos etapas
Rendimiento
En evaluaciones humanas, SkyReels-V2 logró excelentes resultados en adherencia a instrucciones, consistencia y calidad visual:
- En tareas de texto a video, SkyReels-V2 alcanzó una puntuación media de 3.14, superando a otros modelos de código abierto, incluido Wan2.1-14B
- En tareas de imagen a video, SkyReels-V2-I2V alcanzó una puntuación media de 3.29, aproximándose al rendimiento de modelos comerciales de código cerrado
Requisitos de hardware
Tenga en cuenta que SkyReels-V2 tiene requisitos de hardware relativamente altos:
- Generar video 540P con el modelo 1.3B requiere aproximadamente 14.7GB de VRAM
- Generar video 540P con el modelo 14B requiere aproximadamente 43.4GB de VRAM
- La generación de videos largos o resoluciones más altas requerirá recursos adicionales
Enlaces relevantes
El lanzamiento de SkyReels-V2 representa un avance significativo en la generación de videos mediante IA, particularmente en la síntesis de videos de formato largo, proporcionando a creadores y desarrolladores nuevas posibilidades. Con el lanzamiento planificado de modelos adicionales de la serie 5B y modelos de director de cámara, podemos esperar más innovaciones de esta tecnología en el futuro.