Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
Kuaishou выпускает CineMaster: Video ControlNet меняет подход к 3D-осознанной генерации видео
Kuaishou недавно представила CineMaster — инновационный фреймворк генерации видео из текста, который стал важной вехой в создании видео. Этот фреймворк обладает мощными возможностями 3D-осознанности и называется видео-версией ControlNet, предоставляя создателям беспрецедентно точный контроль над элементами видео, включая положение, траектории движения и 3D-пространственные макеты.
Технические инновации CineMaster
CineMaster использует инновационный двухэтапный дизайн фреймворка:
Основные особенности CineMaster
Главная сила CineMaster — высокая управляемость процессом генерации видео. Пользователи могут не только создавать полностью контролируемый видеоконтент, но и извлекать 3D-информацию из видео для вторичного творчества и редактирования, включая перенос стиля. CineMaster — это мощный инструмент, позволяющий точно размещать объекты и гибко настраивать углы камеры в 3D-пространстве.
Точный контроль движения объектов и камеры
CineMaster позволяет создателям точно управлять положением объектов и траекториями камеры с помощью множества управляющих сигналов. Это значит, что пользователи могут генерировать динамичные сцены и внедрять сложные 3D-элементы, получая невиданные ранее творческие возможности в видеопроизводстве.
Двухэтапный рабочий процесс CineMaster
CineMaster работает в два этапа:
-
Интерактивный рабочий процесс: Пользователи интуитивно формируют управляющие сигналы, размещая ограничивающие рамки объектов и определяя движения камеры в 3D-пространстве. Этот этап обеспечивает понятную и удобную 3D-осознанную среду.
-
Генерация управляющих сигналов: Сигналы, созданные на первом этапе (включая карты глубины, траектории камеры и метки категорий объектов), подаются в диффузионную модель генерации видео из текста для управления созданием видеоконтента по запросу пользователя.
Конвейер аннотирования датасета
Чтобы преодолеть нехватку данных с аннотациями 3D-боксов и поз камеры, Kuaishou создала автоматизированный конвейер аннотирования, извлекающий 3D-рамки и траектории камеры из большого объема видеоданных. Конвейер включает следующие этапы:
- Сегментация экземпляров: Извлечение результатов сегментации объектов на переднем плане видео.
- Оценка глубины: Генерация метрических карт глубины с помощью DepthAnything V2.
- Вычисление 3D-точечных облаков и боксов: Расчет 3D-облаков точек для каждого объекта методом обратной проекции и вычисление 3D-рамок минимального объема.
- Трекинг объектов и корректировка 3D-боксов: Расчет 3D-рамок для каждого кадра с помощью отслеживания точек и проекция всей 3D-сцены на карты глубины.
Производительность превосходит существующие методы
CineMaster демонстрирует отличные результаты в обширных качественных и количественных экспериментах, значительно превосходя существующие методы, особенно в трех сценариях: движущиеся объекты со статичной камерой, статичные объекты с движущейся камерой и движущиеся объекты с движущейся камерой. CineMaster показывает превосходные возможности управления при генерации различных сложных сцен по запросу пользователя.
Техническая архитектура и инновации
Фреймворк CineMaster инновационно использует Semantic Layout ControlNet. Архитектура включает Semantic Injector и ControlNet на базе DiT. Semantic Injector объединяет 3D-пространственные макеты и метки категорий для передачи управляющих сигналов. ControlNet на базе DiT дополнительно обрабатывает эти признаки и усиливает возможности представления модели. Кроме того, Camera Adapter внедряет траектории камеры, обеспечивая совместное управление движением объектов и камеры.
CineMaster предоставляет создателям гибкую и управляемую платформу генерации видео из текста, открывая невиданные ранее возможности 3D-творчества. По мере развития технологии CineMaster готов задавать новые тренды в создании и редактировании видео, предлагая пользователям более богатый и детализированный творческий опыт.
Статус открытого исходного кода
- Открытый исходный код пока недоступен
Ссылки CineMaster
Страница проекта: https://cinemaster-dev.github.io/ Статья: https://arxiv.org/pdf/2502.08639