FloED: Modelo de difusión eficiente de código abierto para restauración de videos guiado por flujo óptico

Visión general del método FloED

Recientemente, un equipo de investigación de la Universidad de Ciencia y Tecnología de Hong Kong y la Academia DAMO de Alibaba lanzó FloED, un marco de restauración de videos que utiliza tecnología de modelos de difusión guiados por flujo óptico para proporcionar mayor coherencia temporal y eficiencia computacional en tareas de restauración de videos. El equipo también ha publicado como código abierto el código de inferencia y los pesos del modelo, proporcionando una nueva herramienta para el campo del procesamiento de videos con IA.

Problemas principales abordados

La restauración de videos se refiere al uso de tecnología de IA para rellenar partes faltantes o eliminadas de videos, haciendo que los resultados se vean naturales y coherentes. Los métodos existentes de restauración de videos basados en modelos de difusión tienen dos problemas principales:

Insuficiente coherencia temporal: Los videos reparados a menudo muestran parpadeos e inestabilidad entre fotogramas
Baja eficiencia computacional: Los modelos de difusión son computacionalmente costosos, y los pasos adicionales requeridos para el procesamiento de videos hacen que los métodos existentes sean lentos

FloED resuelve estos problemas mediante un diseño inteligente, haciendo que los resultados de la restauración de videos sean más naturales y mejorando significativamente la eficiencia de procesamiento.

Innovaciones técnicas

Arquitectura FloED

Las principales innovaciones de FloED incluyen:

Arquitectura de doble rama: Una rama dedicada primero restaura el flujo óptico dañado (información de movimiento de objetos en el video), luego proporciona esta información de movimiento a la rama principal de restauración a través de adaptadores de flujo multiescala, guiando la dirección del contenido generado
Aceleración por interpolación del espacio latente: Utiliza información de flujo óptico para la interpolación de características, acelerando el proceso de eliminación de ruido de múltiples pasos sin entrenamiento adicional
Almacenamiento en caché de atención de flujo: Optimiza el proceso de cálculo, reduciendo la sobrecarga computacional adicional introducida por el flujo óptico

Estas tecnologías permiten a FloED mantener resultados de restauración de videos de alta calidad mientras aumenta significativamente la velocidad de procesamiento.

Escenarios de aplicación y demostraciones

FloED es principalmente aplicable a dos tipos de tareas de restauración de videos:

Eliminación de objetos

Eliminar objetos no deseados de videos manteniendo la coherencia del fondo y las transiciones naturales.

Restauración de fondo

Reparar grandes áreas de fondo en videos, manteniendo la coherencia visual y temporal con el entorno circundante.

Progreso del código abierto

Según las últimas actualizaciones del proyecto, el equipo de FloED lanzó el código de inferencia y los pesos del modelo el 13 de abril de 2025. Los usuarios interesados pueden acceder a ellos a través de los siguientes pasos:

Instalar el entorno requerido (mediante archivo de configuración del entorno)
Descargar y preparar los pesos de FloED
Utilizar los scripts de ejemplo proporcionados para comenzar rápidamente la inferencia

Planes futuros

Según la hoja de ruta del equipo del proyecto, se lanzará lo siguiente en el futuro:

Código de interpolación del espacio latente
Código de entrenamiento y puntos de referencia para evaluación

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD

ComfyUI Lanza Oficialmente la Función Subgraph