FloED: Modelo de difusión eficiente de código abierto para restauración de videos guiado por flujo óptico
Recientemente, un equipo de investigación de la Universidad de Ciencia y Tecnología de Hong Kong y la Academia DAMO de Alibaba lanzó FloED, un marco de restauración de videos que utiliza tecnología de modelos de difusión guiados por flujo óptico para proporcionar mayor coherencia temporal y eficiencia computacional en tareas de restauración de videos. El equipo también ha publicado como código abierto el código de inferencia y los pesos del modelo, proporcionando una nueva herramienta para el campo del procesamiento de videos con IA.
Problemas principales abordados
La restauración de videos se refiere al uso de tecnología de IA para rellenar partes faltantes o eliminadas de videos, haciendo que los resultados se vean naturales y coherentes. Los métodos existentes de restauración de videos basados en modelos de difusión tienen dos problemas principales:
- Insuficiente coherencia temporal: Los videos reparados a menudo muestran parpadeos e inestabilidad entre fotogramas
- Baja eficiencia computacional: Los modelos de difusión son computacionalmente costosos, y los pasos adicionales requeridos para el procesamiento de videos hacen que los métodos existentes sean lentos
FloED resuelve estos problemas mediante un diseño inteligente, haciendo que los resultados de la restauración de videos sean más naturales y mejorando significativamente la eficiencia de procesamiento.
Innovaciones técnicas
Las principales innovaciones de FloED incluyen:
-
Arquitectura de doble rama: Una rama dedicada primero restaura el flujo óptico dañado (información de movimiento de objetos en el video), luego proporciona esta información de movimiento a la rama principal de restauración a través de adaptadores de flujo multiescala, guiando la dirección del contenido generado
-
Aceleración por interpolación del espacio latente: Utiliza información de flujo óptico para la interpolación de características, acelerando el proceso de eliminación de ruido de múltiples pasos sin entrenamiento adicional
-
Almacenamiento en caché de atención de flujo: Optimiza el proceso de cálculo, reduciendo la sobrecarga computacional adicional introducida por el flujo óptico
Estas tecnologías permiten a FloED mantener resultados de restauración de videos de alta calidad mientras aumenta significativamente la velocidad de procesamiento.
Escenarios de aplicación y demostraciones
FloED es principalmente aplicable a dos tipos de tareas de restauración de videos:
Eliminación de objetos
Eliminar objetos no deseados de videos manteniendo la coherencia del fondo y las transiciones naturales.
Restauración de fondo
Reparar grandes áreas de fondo en videos, manteniendo la coherencia visual y temporal con el entorno circundante.
Progreso del código abierto
Según las últimas actualizaciones del proyecto, el equipo de FloED lanzó el código de inferencia y los pesos del modelo el 13 de abril de 2025. Los usuarios interesados pueden acceder a ellos a través de los siguientes pasos:
- Instalar el entorno requerido (mediante archivo de configuración del entorno)
- Descargar y preparar los pesos de FloED
- Utilizar los scripts de ejemplo proporcionados para comenzar rápidamente la inferencia
Planes futuros
Según la hoja de ruta del equipo del proyecto, se lanzará lo siguiente en el futuro:
- Código de interpolación del espacio latente
- Código de entrenamiento y puntos de referencia para evaluación