Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиKuaishou и Пекинский университет совместно представили модель генерации видео Pyramidal Flow Matching

Kuaishou и Пекинский университет совместно представили модель генерации видео Pyramidal Flow Matching

Недавно исследовательские команды Kuaishou Technology и Пекинского университета совместно представили новую модель генерации видео — Pyramidal Flow Matching. Эта модель, основанная на авторегрессионной технологии генерации видео с использованием flow matching, способна создавать качественный видеоконтент большой продолжительности и является заметным шагом вперёд в области генерации видео.

Обзор модели Pyramidal Flow Matching

Pyramidal Flow Matching — это эффективная в обучении авторегрессионная модель генерации видео, разработанная на основе технологии flow matching. Основные особенности модели:

  1. Открытые обучающие данные: Модель обучалась исключительно на открытых датасетах, при этом было использовано в общей сложности 20,7 тысяч часов вычислений на GPU A100.
  2. Высокое разрешение: Генерация видео с разрешением 1280x768.
  3. Длительная генерация: Поддержка создания видео продолжительностью до 10 секунд при 24 кадрах в секунду.
  4. Масштаб модели: Общее количество параметров — 2 миллиарда.

Демонстрация возможностей модели

Модель Pyramidal Flow Matching демонстрирует различные возможности генерации видео, включая генерацию по текстовому описанию и на основе изображений. Вот несколько типичных примеров:

1. Генерация видео по тексту (1280x768, 10 секунд, 24FPS)

Модель способна создавать реалистичные видеосцены на основе подробных текстовых описаний. Например:

  • Описание: “Красивый, заснеженный город Токио оживлён. Камера движется по оживлённой городской улице, следуя за несколькими людьми, наслаждающимися снежной погодой и покупками у уличных лавок.”

    Tokyo Snow Scene Video

  • Описание: “На закате автомобиль едет по шоссе, в зеркале заднего вида отражается красочный закат и спокойный пейзаж.”

    Highway Sunset Video

2. Генерация коротких видео по тексту (1280x768, 5 секунд, 24FPS)

Модель также может создавать короткие, но насыщенные видеоролики:

  • Описание: “Кот будит спящего хозяина, требуя завтрак.”

    Cat Waking Owner Video

  • Описание: “Дрон облетает красивую историческую церковь, построенную на скалистом выступе вдоль побережья Амальфи, открывая вид на архитектурные детали и террасированные дорожки и дворики.”

    Amalfi Coast Church Video

3. Генерация видео на основе изображений (1280x768, 5 секунд, 24FPS)

Модель также способна превращать статические изображения в динамичные видеоролики:

  • Описание: “Автомобиль едет по дороге.”

    Car Driving Video

  • Описание: “FPV-полёт над Великой стеной.”

    Great Wall Flying Video

Технические особенности

  1. Технология Flow Matching: Использует flow matching в качестве основной технологии, что повышает связность и реалистичность сгенерированного видео.
  2. Пирамидальная структура: Применяет пирамидальную структуру для обработки пространственно-временной информации, что эффективно улучшает качество генерации.
  3. Эффективное обучение: Достигает высокого качества генерации видео, используя только открытые датасеты и ограниченные вычислительные ресурсы.
  4. Разнообразие вывода: Поддерживает генерацию видео в различных разрешениях и длительностях, что позволяет использовать модель в разных сценариях.

Потенциальные области применения

Появление модели Pyramidal Flow Matching открывает новые возможности для различных сфер:

  1. Создание креативного контента: Новые инструменты для создания рекламы, трейлеров и другого творческого видеоконтента.
  2. Образование и обучение: Быстрая генерация обучающих видео или имитационных сценариев.
  3. Разработка игр: Помощь в создании игровых сцен и анимаций.
  4. Виртуальная реальность: Генерация насыщенного визуального контента для VR/AR-приложений.

Заключение

Модель Pyramidal Flow Matching, совместно разработанная Kuaishou Technology и Пекинским университетом, представляет собой современное достижение в области генерации видео. Благодаря сочетанию flow matching и пирамидальной структуры, эта модель способна создавать качественный видеоконтент большой продолжительности, открывая новые возможности для ИИ-генерации видео. По мере развития технологии и расширения её применения можно ожидать появления ещё большего количества интересных AI-видеороликов.

Желающие могут посетить официальный сайт проекта, чтобы узнать больше подробностей и лично ознакомиться с возможностями модели.