Skip to content
Ayuda a Construir una Mejor Base de Conocimientos de ComfyUI Conviértete en Patrocinador
NoticiasLanzamiento de SkyReels-V2: Modelo de código abierto para generar videos de longitud infinita

Lanzamiento de SkyReels-V2: Modelo de código abierto para generar videos de longitud infinita

SkyReels Logo

El equipo de SkyworkAI ha lanzado recientemente un nuevo modelo de generación de video, SkyReels-V2, un proyecto revolucionario de código abierto capaz de generar videos de calidad cinematográfica con una longitud teóricamente infinita. El modelo emplea un innovador marco de “Forzado de Difusión” (Diffusion Forcing) y admite métodos de generación tanto de texto a video (T2V) como de imagen a video (I2V).

Características principales

SkyReels-V2 aporta múltiples innovaciones al campo de la generación de videos:

  • Generación de videos de longitud infinita: Mediante la tecnología de forzado de difusión, el modelo puede generar videos de longitud teóricamente ilimitada
  • Soporte de entrada multimodal: Compatible tanto con funcionalidades de texto a video como de imagen a video
  • Resultados visuales de alta calidad: En evaluaciones humanas, su rendimiento visual se acerca a modelos comerciales de código cerrado como Kling-1.6 y Runway Gen-4
  • Totalmente de código abierto y apto para uso comercial: Tanto el código como los pesos del modelo están disponibles en código abierto y se pueden utilizar en proyectos comerciales
  • Modelo de subtitulado de video: También incluye SkyCaptioner-V1, un modelo especializado para la comprensión de videos

Series de modelos

SkyReels-V2 ofrece múltiples variantes de modelos con diferentes tamaños y resoluciones:

  • Modelos de Forzado de Difusión (DF): Diseñados específicamente para la generación de videos de longitud infinita, disponibles en versiones 1.3B-540P y 14B-720P
  • Modelos de Texto a Video (T2V): Centrados en generar videos de alta calidad a partir de indicaciones de texto
  • Modelos de Imagen a Video (I2V): Capaces de generar secuencias de video coherentes a partir de imágenes de entrada

Aspectos técnicos destacados

SkyReels-V2 emplea varias tecnologías avanzadas:

  1. Captionador de Video (SkyCaptioner-V1): Ajustado a partir del modelo Qwen2.5-VL-7B-Instruct, supera significativamente a los modelos existentes en la comprensión de contenido de video
  2. Aprendizaje por refuerzo: Optimiza la calidad del movimiento para abordar problemas con movimientos grandes y deformables y el cumplimiento de las leyes físicas
  3. Forzado de Difusión: Una estrategia innovadora de entrenamiento y muestreo que permite niveles de ruido independientes para cada token
  4. Ajuste fino supervisado de alta calidad: Mejora la calidad visual a través de un proceso de ajuste fino en dos etapas

Rendimiento

En evaluaciones humanas, SkyReels-V2 logró excelentes resultados en adherencia a instrucciones, consistencia y calidad visual:

  • En tareas de texto a video, SkyReels-V2 alcanzó una puntuación media de 3.14, superando a otros modelos de código abierto, incluido Wan2.1-14B
  • En tareas de imagen a video, SkyReels-V2-I2V alcanzó una puntuación media de 3.29, aproximándose al rendimiento de modelos comerciales de código cerrado

Requisitos de hardware

Tenga en cuenta que SkyReels-V2 tiene requisitos de hardware relativamente altos:

  • Generar video 540P con el modelo 1.3B requiere aproximadamente 14.7GB de VRAM
  • Generar video 540P con el modelo 14B requiere aproximadamente 43.4GB de VRAM
  • La generación de videos largos o resoluciones más altas requerirá recursos adicionales

Enlaces relevantes

El lanzamiento de SkyReels-V2 representa un avance significativo en la generación de videos mediante IA, particularmente en la síntesis de videos de formato largo, proporcionando a creadores y desarrolladores nuevas posibilidades. Con el lanzamiento planificado de modelos adicionales de la serie 5B y modelos de director de cámara, podemos esperar más innovaciones de esta tecnología en el futuro.