Skip to content

Kuaishou y PKU Lanzan Conjuntamente el Modelo de Generación de Video por Coincidencia de Flujo Piramidal

Recientemente, los equipos de investigación de Kuaishou Technology y la Universidad de Pekín presentaron conjuntamente un nuevo modelo de generación de video: la Coincidencia de Flujo Piramidal. Este modelo, basado en la tecnología de generación de video autorregresiva por coincidencia de flujo, puede producir contenido de video de alta calidad y larga duración, marcando un avance significativo en el campo de la generación de video.

Descripción General del Modelo de Coincidencia de Flujo Piramidal

El modelo de Coincidencia de Flujo Piramidal es un modelo de generación de video autorregresivo eficiente en entrenamiento desarrollado con base en la tecnología de coincidencia de flujo. Aquí están las principales características de este modelo:

  1. Datos de Entrenamiento de Código Abierto: El modelo fue entrenado exclusivamente utilizando conjuntos de datos de código abierto, utilizando un total de 20.7k horas de recursos de computación GPU A100.
  2. Salida de Alta Resolución: Capaz de generar videos con una resolución de 1280x768.
  3. Generación de Larga Duración: Soporta la generación de videos de hasta 10 segundos de duración a 24 fotogramas por segundo.
  4. Escala del Modelo: Total de parámetros de 2B (2 mil millones).

Demostración de Capacidades del Modelo

El modelo de Coincidencia de Flujo Piramidal demuestra diversas capacidades de generación de video, incluyendo generación de video a partir de texto y generación de video basada en imágenes. Aquí hay algunos ejemplos típicos:

1. Generación de Video a Partir de Texto (1280x768, 10 segundos, 24FPS)

El modelo puede generar escenas de video realistas basadas en descripciones de texto detalladas. Por ejemplo:

  • Descripción: “La hermosa y nevada ciudad de Tokio está bulliciosa. La cámara se mueve a través de la bulliciosa calle de la ciudad, siguiendo a varias personas disfrutando del hermoso clima nevado y comprando en los puestos cercanos.”

    Video de Escena Nevada en Tokio

  • Descripción: “Al atardecer, un coche circula por la carretera, con el espejo retrovisor reflejando un colorido atardecer y un paisaje sereno.”

    Video de Atardecer en la Carretera

2. Generación de Video a Partir de Texto (1280x768, 5 segundos, 24FPS)

El modelo también puede generar clips de video más cortos pero ricos en contenido:

  • Descripción: “Un gato despertando a su dueño dormido, exigiendo desayuno.”

    Video de Gato Despertando al Dueño

  • Descripción: “Una cámara de dron rodea una hermosa iglesia histórica construida sobre un acantilado rocoso a lo largo de la Costa de Amalfi, la vista muestra detalles arquitectónicos históricos y magníficos y caminos y patios en terrazas.”

    Video de Iglesia en la Costa de Amalfi

3. Generación de Video Basada en Imágenes (1280x768, 5 segundos, 24FPS)

El modelo también tiene la capacidad de transformar imágenes estáticas en videos dinámicos:

  • Descripción: “Un coche conduciendo por la carretera.”

    Video de Coche Conduciendo

  • Descripción: “Vuelo FPV sobre la Gran Muralla.”

    Video de Vuelo sobre la Gran Muralla

Aspectos Técnicos Destacados

  1. Tecnología de Coincidencia de Flujo: Adopta la coincidencia de flujo como tecnología central, mejorando la coherencia y el realismo de la generación de video.
  2. Estructura Piramidal: Utiliza una estructura piramidal para procesar información espaciotemporal en videos, mejorando efectivamente la calidad de generación.
  3. Entrenamiento Eficiente: Logra una generación de video de alta calidad utilizando solo conjuntos de datos de código abierto con recursos computacionales limitados.
  4. Salida Diversa: Soporta la generación de video en varias resoluciones y duraciones, adaptándose a diferentes escenarios de aplicación.

Aplicaciones Potenciales

La aparición del modelo de Coincidencia de Flujo Piramidal trae nuevas posibilidades a múltiples campos:

  1. Producción de Contenido Creativo: Proporciona nuevas herramientas para crear anuncios, tráilers de películas y otros contenidos creativos.
  2. Educación y Capacitación: Genera rápidamente videos educativos o escenarios simulados.
  3. Desarrollo de Juegos: Ayuda en la creación de escenas y animaciones de juegos.
  4. Realidad Virtual: Genera contenido visual rico para aplicaciones de VR/AR.

Conclusión

El modelo de Coincidencia de Flujo Piramidal, desarrollado conjuntamente por Kuaishou Technology y la Universidad de Pekín, representa el último avance en la tecnología de generación de video. Al combinar la coincidencia de flujo y la estructura piramidal, este modelo puede generar contenido de video de alta calidad y larga duración, trayendo nuevas posibilidades al campo de la generación de video por IA. A medida que la tecnología se desarrolle y encuentre aplicaciones, podemos esperar ver más contenido de video generado por IA impresionante.

Los lectores interesados pueden visitar el sitio web oficial del proyecto para conocer más detalles y experimentar personalmente las poderosas capacidades del modelo.