Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
Kuaishou и Пекинский университет совместно представили модель генерации видео Pyramidal Flow Matching
Недавно исследовательские команды Kuaishou Technology и Пекинского университета совместно представили новую модель генерации видео — Pyramidal Flow Matching. Эта модель, основанная на авторегрессионной технологии генерации видео с использованием flow matching, способна создавать качественный видеоконтент большой продолжительности и является заметным шагом вперёд в области генерации видео.
Обзор модели Pyramidal Flow Matching
Pyramidal Flow Matching — это эффективная в обучении авторегрессионная модель генерации видео, разработанная на основе технологии flow matching. Основные особенности модели:
- Открытые обучающие данные: Модель обучалась исключительно на открытых датасетах, при этом было использовано в общей сложности 20,7 тысяч часов вычислений на GPU A100.
- Высокое разрешение: Генерация видео с разрешением 1280x768.
- Длительная генерация: Поддержка создания видео продолжительностью до 10 секунд при 24 кадрах в секунду.
- Масштаб модели: Общее количество параметров — 2 миллиарда.
Демонстрация возможностей модели
Модель Pyramidal Flow Matching демонстрирует различные возможности генерации видео, включая генерацию по текстовому описанию и на основе изображений. Вот несколько типичных примеров:
1. Генерация видео по тексту (1280x768, 10 секунд, 24FPS)
Модель способна создавать реалистичные видеосцены на основе подробных текстовых описаний. Например:
-
Описание: “Красивый, заснеженный город Токио оживлён. Камера движется по оживлённой городской улице, следуя за несколькими людьми, наслаждающимися снежной погодой и покупками у уличных лавок.”
-
Описание: “На закате автомобиль едет по шоссе, в зеркале заднего вида отражается красочный закат и спокойный пейзаж.”
2. Генерация коротких видео по тексту (1280x768, 5 секунд, 24FPS)
Модель также может создавать короткие, но насыщенные видеоролики:
-
Описание: “Кот будит спящего хозяина, требуя завтрак.”
-
Описание: “Дрон облетает красивую историческую церковь, построенную на скалистом выступе вдоль побережья Амальфи, открывая вид на архитектурные детали и террасированные дорожки и дворики.”
3. Генерация видео на основе изображений (1280x768, 5 секунд, 24FPS)
Модель также способна превращать статические изображения в динамичные видеоролики:
-
Описание: “Автомобиль едет по дороге.”
-
Описание: “FPV-полёт над Великой стеной.”
Технические особенности
- Технология Flow Matching: Использует flow matching в качестве основной технологии, что повышает связность и реалистичность сгенерированного видео.
- Пирамидальная структура: Применяет пирамидальную структуру для обработки пространственно-временной информации, что эффективно улучшает качество генерации.
- Эффективное обучение: Достигает высокого качества генерации видео, используя только открытые датасеты и ограниченные вычислительные ресурсы.
- Разнообразие вывода: Поддерживает генерацию видео в различных разрешениях и длительностях, что позволяет использовать модель в разных сценариях.
Потенциальные области применения
Появление модели Pyramidal Flow Matching открывает новые возможности для различных сфер:
- Создание креативного контента: Новые инструменты для создания рекламы, трейлеров и другого творческого видеоконтента.
- Образование и обучение: Быстрая генерация обучающих видео или имитационных сценариев.
- Разработка игр: Помощь в создании игровых сцен и анимаций.
- Виртуальная реальность: Генерация насыщенного визуального контента для VR/AR-приложений.
Заключение
Модель Pyramidal Flow Matching, совместно разработанная Kuaishou Technology и Пекинским университетом, представляет собой современное достижение в области генерации видео. Благодаря сочетанию flow matching и пирамидальной структуры, эта модель способна создавать качественный видеоконтент большой продолжительности, открывая новые возможности для ИИ-генерации видео. По мере развития технологии и расширения её применения можно ожидать появления ещё большего количества интересных AI-видеороликов.
Желающие могут посетить официальный сайт проекта, чтобы узнать больше подробностей и лично ознакомиться с возможностями модели.