Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиKuaishou представляет CineMaster: прорыв в 3D-осознанной генерации видео

Kuaishou выпускает CineMaster: Video ControlNet меняет подход к 3D-осознанной генерации видео

Kuaishou недавно представила CineMaster — инновационный фреймворк генерации видео из текста, который стал важной вехой в создании видео. Этот фреймворк обладает мощными возможностями 3D-осознанности и называется видео-версией ControlNet, предоставляя создателям беспрецедентно точный контроль над элементами видео, включая положение, траектории движения и 3D-пространственные макеты.

Технические инновации CineMaster

Cinemaster Core

CineMaster использует инновационный двухэтапный дизайн фреймворка:

Основные особенности CineMaster

Главная сила CineMaster — высокая управляемость процессом генерации видео. Пользователи могут не только создавать полностью контролируемый видеоконтент, но и извлекать 3D-информацию из видео для вторичного творчества и редактирования, включая перенос стиля. CineMaster — это мощный инструмент, позволяющий точно размещать объекты и гибко настраивать углы камеры в 3D-пространстве.

Точный контроль движения объектов и камеры

CineMaster позволяет создателям точно управлять положением объектов и траекториями камеры с помощью множества управляющих сигналов. Это значит, что пользователи могут генерировать динамичные сцены и внедрять сложные 3D-элементы, получая невиданные ранее творческие возможности в видеопроизводстве.

Двухэтапный рабочий процесс CineMaster

CineMaster работает в два этапа:

  1. Интерактивный рабочий процесс: Пользователи интуитивно формируют управляющие сигналы, размещая ограничивающие рамки объектов и определяя движения камеры в 3D-пространстве. Этот этап обеспечивает понятную и удобную 3D-осознанную среду.

  2. Генерация управляющих сигналов: Сигналы, созданные на первом этапе (включая карты глубины, траектории камеры и метки категорий объектов), подаются в диффузионную модель генерации видео из текста для управления созданием видеоконтента по запросу пользователя.

Конвейер аннотирования датасета

CineMaster Data pipeline

Чтобы преодолеть нехватку данных с аннотациями 3D-боксов и поз камеры, Kuaishou создала автоматизированный конвейер аннотирования, извлекающий 3D-рамки и траектории камеры из большого объема видеоданных. Конвейер включает следующие этапы:

  1. Сегментация экземпляров: Извлечение результатов сегментации объектов на переднем плане видео.
  2. Оценка глубины: Генерация метрических карт глубины с помощью DepthAnything V2.
  3. Вычисление 3D-точечных облаков и боксов: Расчет 3D-облаков точек для каждого объекта методом обратной проекции и вычисление 3D-рамок минимального объема.
  4. Трекинг объектов и корректировка 3D-боксов: Расчет 3D-рамок для каждого кадра с помощью отслеживания точек и проекция всей 3D-сцены на карты глубины.

Производительность превосходит существующие методы

CineMaster демонстрирует отличные результаты в обширных качественных и количественных экспериментах, значительно превосходя существующие методы, особенно в трех сценариях: движущиеся объекты со статичной камерой, статичные объекты с движущейся камерой и движущиеся объекты с движущейся камерой. CineMaster показывает превосходные возможности управления при генерации различных сложных сцен по запросу пользователя.

Техническая архитектура и инновации

Фреймворк CineMaster инновационно использует Semantic Layout ControlNet. Архитектура включает Semantic Injector и ControlNet на базе DiT. Semantic Injector объединяет 3D-пространственные макеты и метки категорий для передачи управляющих сигналов. ControlNet на базе DiT дополнительно обрабатывает эти признаки и усиливает возможности представления модели. Кроме того, Camera Adapter внедряет траектории камеры, обеспечивая совместное управление движением объектов и камеры.

CineMaster предоставляет создателям гибкую и управляемую платформу генерации видео из текста, открывая невиданные ранее возможности 3D-творчества. По мере развития технологии CineMaster готов задавать новые тренды в создании и редактировании видео, предлагая пользователям более богатый и детализированный творческий опыт.

Статус открытого исходного кода

  • Открытый исходный код пока недоступен

Ссылки CineMaster

Страница проекта: https://cinemaster-dev.github.io/ Статья: https://arxiv.org/pdf/2502.08639