FramePack: Эффективная модель предсказания следующего кадра для генерации видео

Lvmin Zhang и Maneesh Agrawala недавно выпустили FramePack, технологию генерации видео, которая предлагает новое решение для моделей предсказания следующего кадра. FramePack использует инновационные методы сжатия входных кадров, чтобы сделать рабочую нагрузку генерации видео инвариантной к длине видео, позволяя пользователям генерировать высококачественные, длительные видео на потребительском оборудовании.

Основные технические особенности

Главное преимущество FramePack заключается в его способности сжимать входной контекст до постоянной длины, делая рабочую нагрузку генерации независимой от длины видео. Конкретные особенности включают:

Обработка многочисленных кадров с моделями 13B параметров даже на GPU ноутбуков с только 6GB VRAM
Обучение с размерами батчей, подобными используемым в обучении диффузии изображений
Скорости генерации 1.5-2.5 секунды на кадр на RTX 4090
Отсутствие необходимости в техниках дистилляции временных шагов

Решение ключевых проблем генерации видео

Традиционная генерация видео сталкивается с двумя основными проблемами: забыванием (модели с трудом помнят более ранний контент) и дрифтом (визуальное качество ухудшается по мере накопления ошибок со временем). FramePack решает эти проблемы двумя способами:

Механизм сжатия кадров: Выделяет различные длины контекста на основе важности кадра, с кадрами, ближайшими к цели предсказания, получающими больше ресурсов
Анти-дрифтовая выборка: Использует двунаправленный контекст, а не строгие каузальные зависимости для предотвращения ухудшения качества со временем

Практические демонстрации

Вот демонстрации FramePack, генерирующего видео из одиночных изображений:

Пример 1: Генерация танцевального движения

Входное изображение

Сгенерированное видео

Пример 2: Генерация динамической сцены

Входное изображение

Сгенерированное видео

Технология для повседневных пользователей

Дизайн FramePack предлагает исключительную удобство использования:

Низкие требования к оборудованию: Поддерживает GPU Nvidia в сериях RTX 30XX, 40XX, 50XX с минимумом всего 6GB VRAM
Генерация длинных видео: Может генерировать видео до 60 секунд (30fps, 1800 кадров) на маленьких GPU
Обратная связь в реальном времени: Поскольку он генерирует кадр за кадром, пользователи могут видеть прогресс генерации до завершения всего видео

Связанные ссылки

FramePack делает генерацию видео такой же простой, как генерация изображений, предоставляя создателям контента более удобный и эффективный инструмент для создания плавного, высококачественного видеоконтента даже на обычном оборудовании.

Основные технические особенности

Решение ключевых проблем генерации видео

Практические демонстрации

Технология для повседневных пользователей

Связанные ссылки

Комментарии