Skip to content
Ayuda a Construir una Mejor Base de Conocimientos de ComfyUI Conviértete en Patrocinador
NoticiasKunlun Wanwei lanza SkyReels-V2, un modelo generativo de películas de longitud infinita

SkyReels Logo

Kunlun Wanwei lanza SkyReels-V2, un modelo generativo de películas de longitud infinita

El 21 de abril, el equipo SkyReels de Kunlun Wanwei lanzó oficialmente como código abierto SkyReels-V2, el primer modelo generativo de películas de longitud infinita del mundo que utiliza el marco de Forzado de Difusión (Diffusion Forcing). Este modelo logra una optimización colaborativa combinando modelos de lenguaje grandes multimodales (MLLM), preentrenamiento multietapa, aprendizaje por refuerzo y el marco de Forzado de Difusión, pudiendo generar videos de alta calidad de 30 segundos, 40 segundos o incluso más largos.

🎥 Demostraciones

Las demostraciones anteriores muestran videos de 30 segundos generados con el modelo de Forzado de Difusión SkyReels-V2.

Innovaciones técnicas

SkyReels-V2 logra una generación de video de alta calidad gracias a varias innovaciones técnicas:

Descripción general del método SkyReels-V2

1. Modelo de comprensión de video de nivel cinematográfico: SkyCaptioner-V1

El equipo diseñó un método de representación de video estructurado que combina descripciones generales de LLM multimodales con lenguaje detallado de tomas de modelos subexpertos. Este método identifica tipos de sujetos, apariencias, expresiones, acciones y posiciones en videos.

SkyCaptioner-V1 comprende eficientemente los datos de video y genera descripciones diversas alineadas con la información estructural original. No solo comprende el contenido general del video, sino que también captura el lenguaje cinematográfico profesional en escenas de películas, mejorando significativamente la adherencia a las instrucciones en los videos generados. Este modelo ya es de código abierto y está disponible para uso directo.

2. Optimización de preferencia de movimiento

Mediante entrenamiento de aprendizaje por refuerzo usando anotación humana y datos de distorsión sintética, el equipo abordó problemas de distorsión dinámica y movimiento poco realista en los modelos existentes de generación de video. Diseñaron un pipeline de recopilación de datos semiautomático para generar eficientemente pares de datos de comparación de preferencias.

Este enfoque permite a SkyReels-V2 destacar en dinámica de movimiento, generando contenido de video fluido y realista que cumple con las demandas de movimiento de alta calidad.

3. Marco eficiente de Forzado de Difusión

Para lograr capacidades de generación de videos largos, el equipo propuso un método de post-entrenamiento de Forzado de Difusión. Al ajustar modelos de difusión preentrenados y convertirlos en modelos de Forzado de Difusión, no solo redujeron los costos de entrenamiento sino que también mejoraron significativamente la eficiencia de generación.

El equipo adoptó un programa de tiempo de ruido no decreciente, reduciendo el espacio de búsqueda para programas de eliminación de ruido de fotogramas continuos de O(1e48) a O(1e32), permitiendo la generación eficiente de videos largos.

4. Preentrenamiento progresivo de resolución y optimización post-entrenamiento multietapa

Para desarrollar un modelo de generación de películas profesional, el marco de garantía de calidad multietapa del equipo integró datos de tres fuentes principales: conjuntos de datos generales, medios autorecopilados y bibliotecas de recursos artísticos.

Sobre esta base de datos, el equipo primero estableció un modelo base de generación de video mediante preentrenamiento progresivo de resolución, seguido por cuatro etapas de mejoras de entrenamiento: ajuste fino supervisado inicial equilibrado conceptualmente, entrenamiento de aprendizaje por refuerzo específico de movimiento, marco de Forzado de Difusión y SFT de alta calidad.

Rendimiento

SkyReels-V2 demuestra un excelente rendimiento en múltiples evaluaciones:

  1. En la evaluación humana multidimensional SkyReels-Bench T2V, SkyReels-V2 logró los estándares más altos en adherencia a instrucciones (3.15) y consistencia (3.35), manteniendo un rendimiento de primer nivel en calidad de video (3.34) y calidad de movimiento (2.74).

  2. En la evaluación automatizada VBench1.0, SkyReels-V2 superó a todos los modelos de comparación con la puntuación total más alta (83.9%) y puntuación de calidad (84.7%), incluyendo HunyuanVideo-13B y Wan2.1-14B.

Escenarios de aplicación

SkyReels-V2 proporciona un potente soporte para múltiples escenarios de aplicación práctica:

  1. Generación de historias: Capaz de generar videos de longitud teóricamente infinita utilizando un método de ventana deslizante y técnicas de estabilización para crear tomas largas con narrativas coherentes.

  2. Síntesis de imagen a video: Ofrece dos métodos para la generación de imagen a video, superando a otros modelos de código abierto en todas las dimensiones de calidad y comparable a modelos de código cerrado.

  3. Funcionalidad de director de cámara: A través de muestras especialmente seleccionadas y experimentos de ajuste fino, mejora significativamente los efectos fotográficos, especialmente en la fluidez y diversidad del movimiento de cámara.

  4. Generación de elemento a video: Basado en el modelo base SkyReels-V2, la solución SkyReels-A2 puede combinar elementos visuales arbitrarios en videos coherentes guiados por indicaciones de texto.

Modelos de código abierto

El equipo SkyReels de Kunlun Wanwei ha puesto completamente en código abierto SkyCaptioner-V1 y los modelos de la serie SkyReels-V2 (incluidos Forzado de Difusión, texto a video, imagen a video, director de cámara y modelos de elemento a video) en varios tamaños (1.3B, 5B, 14B) para promover más investigación y aplicaciones en el mundo académico e industrial.

Enlaces relacionados