Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
FloED: Эффективный инпейнтинг видео с открытым исходным кодом с оптическим потоком-направленной диффузией
Недавно исследовательская команда из Гонконгского университета науки и технологий и Alibaba DAMO Academy выпустила FloED, фреймворк инпейнтинга видео, который использует технологию диффузионной модели, направленной оптическим потоком, чтобы принести более высокую временную согласованность и вычислительную эффективность к задачам инпейнтинга видео. Команда также открыла исходный код кода вывода и весов модели, предоставляя новый инструмент для области обработки видео ИИ.
Решаемые основные проблемы
Инпейнтинг видео относится к использованию технологии ИИ для заполнения отсутствующих или удаленных частей видео, делая результаты естественными и согласованными. Существующие методы инпейнтинга видео на основе диффузионных моделей имеют две основные проблемы:
- Недостаточная временная согласованность: Отремонтированные видео часто демонстрируют мерцание и нестабильность между кадрами
- Низкая вычислительная эффективность: Диффузионные модели вычислительно дороги, и дополнительные шаги, требуемые для обработки видео, делают существующие методы медленными
FloED решает эти проблемы через умный дизайн, делая результаты инпейнтинга видео более естественными, одновременно значительно улучшая эффективность обработки.
Технические инновации
Основные инновации FloED включают:
-
Двухветвевая архитектура: Специализированная ветвь сначала восстанавливает поврежденный оптический поток (информацию о движении объектов в видео), затем предоставляет эту информацию о движении основной ветви инпейнтинга через многоуровневые адаптеры потока, направляя направление генерированного контента
-
Ускорение интерполяции в латентном пространстве: Использует информацию оптического потока для интерполяции признаков, ускоряя многошаговый процесс деноизинга без дополнительного обучения
-
Кэширование внимания потока: Оптимизирует процесс вычислений, сокращая дополнительные вычислительные накладные расходы, вводимые оптическим потоком
Эти технологии позволяют FloED поддерживать высококачественные результаты инпейнтинга видео, одновременно значительно увеличивая скорость обработки.
Сценарии применения и демонстрации
FloED в основном применим к двум типам задач инпейнтинга видео:
Удаление объектов
Удаление нежелательных объектов из видео при сохранении согласованности фона и естественных переходов.
Восстановление фона
Ремонт больших областей фона в видео, сохранение визуальной и временной согласованности с окружающей средой.
Прогресс открытого исходного кода
Согласно последним обновлениям проекта, команда FloED выпустила код вывода и веса модели 13 апреля 2025 года. Заинтересованные пользователи могут получить к ним доступ через следующие шаги:
- Установить требуемую среду (через файл конфигурации среды)
- Скачать и подготовить веса FloED
- Использовать предоставленные примеры скриптов для быстрого запуска вывода
Планы на будущее
Согласно дорожной карте команды проекта, следующее будет выпущено в будущем:
- Код интерполяции латентного пространства
- Код обучения и бенчмарки оценки