SkyReels Logo

Kunlun Wanwei выпускает SkyReels-V2 - модель генерации фильмов бесконечной длины

21 апреля команда SkyReels Kunlun Wanwei официально выпустила и открыла исходный код SkyReels-V2 — первой в мире модели генерации фильмов бесконечной длины, использующей фреймворк Diffusion Forcing. Комбинируя мультимодальные крупные языковые модели (MLLM), многоэтапное предобучение, обучение с подкреплением и фреймворк Diffusion Forcing, эта модель достигает совместной оптимизации и может генерировать высококачественные видео длиной 30 секунд, 40 секунд или даже дольше.

🎥 Демонстрации

Демонстрации выше показывают 30-секундные видео, сгенерированные с использованием модели SkyReels-V2 Diffusion Forcing.

Технические инновации

SkyReels-V2 достигает высококачественной генерации видео через несколько технических инноваций:

Обзор метода SkyReels-V2

1. Кинематографическая модель понимания видео: SkyCaptioner-V1

Команда разработала структурированный метод представления видео, который комбинирует общие описания от мультимодальных LLM с детальным языком кадров от суб-экспертных моделей. Этот метод идентифицирует типы объектов, внешности, выражения, действия и позиции в видео.

SkyCaptioner-V1 эффективно понимает данные видео и генерирует разнообразные описания, согласованные с оригинальной структурной информацией. Он не только понимает общий видеоконтент, но также захватывает профессиональный кинематографический язык в кинематографических сценах, значительно улучшая следование промптам в сгенерированных видео. Эта модель теперь открыта с исходным кодом и доступна для прямого использования.

2. Оптимизация предпочтений движения

Через обучение с подкреплением, используя человеческую аннотацию и синтетические данные искажения, команда решала проблемы динамического искажения и нереалистичного движения в существующих моделях генерации видео. Они разработали полуавтоматический пайплайн сбора данных для эффективной генерации пар данных сравнения предпочтений.

Этот подход позволяет SkyReels-V2 превосходить в динамике движения, генерируя плавный и реалистичный видеоконтент, который соответствует требованиям к высококачественному движению.

3. Эффективный фреймворк Diffusion Forcing

Для достижения возможностей генерации длинных видео команда предложила метод пост-обучения Diffusion Forcing. Тонко настраивая предобученные диффузионные модели и конвертируя их в модели Diffusion Forcing, они не только сократили затраты на обучение, но также значительно улучшили эффективность генерации.

Команда приняла неубывающий график шумового времени, сокращая пространство поиска для графиков деноизинга непрерывных кадров с O(1e48) до O(1e32), обеспечивая эффективную генерацию длинных видео.

4. Прогрессивное предобучение разрешения и многоэтапная оптимизация пост-обучения

Для разработки профессиональной модели генерации фильмов многоэтапная система обеспечения качества команды интегрировала данные из трех основных источников: общих наборов данных, самостоятельно собранных медиа и библиотек художественных ресурсов.

Основываясь на этой основе данных, команда сначала установила базовую модель генерации видео через прогрессивное предобучение разрешения, за которым последовали четыре этапа последующих улучшений обучения: начальная сбалансированная по концепции контролируемая тонкая настройка, специфичное для движения обучение с подкреплением, фреймворк Diffusion Forcing и высококачественная SFT.

Производительность

SkyReels-V2 демонстрирует отличную производительность в множественных оценках:

В многомерной человеческой оценке SkyReels-Bench T2V SkyReels-V2 достиг высочайших стандартов в следовании инструкциям (3.15) и согласованности (3.35), одновременно поддерживая производительность первого уровня в качестве видео (3.34) и качестве движения (2.74).
В автоматизированной оценке VBench1.0 SkyReels-V2 превзошел все модели сравнения с наивысшим общим счетом (83.9%) и счетом качества (84.7%), включая HunyuanVideo-13B и Wan2.1-14B.

Сценарии применения

SkyReels-V2 предоставляет мощную поддержку для множественных практических сценариев применения:

Генерация историй: Способна генерировать теоретически бесконечной длины видео, используя метод скользящего окна и техники стабилизации для создания длинных кадров с согласованными повествованиями.
Синтез изображение-в-видео: Предлагает два метода для генерации видео из изображений, превосходя другие модели с открытым исходным кодом по всем измерениям качества и сопоставимые с моделями с закрытым исходным кодом.
Функциональность режиссера камеры: Через специально отобранные образцы и эксперименты тонкой настройки значительно улучшает фотографические эффекты, особенно в плавности и разнообразии движения камеры.
Генерация элемент-в-видео: Основываясь на базовой модели SkyReels-V2, решение SkyReels-A2 может комбинировать произвольные визуальные элементы в согласованные видео, направляемые текстовыми промптами.

Модели с открытым исходным кодом

Команда SkyReels Kunlun Wanwei полностью открыла исходный код SkyCaptioner-V1 и серии моделей SkyReels-V2 (включая Diffusion Forcing, текст-в-видео, изображение-в-видео, режиссер камеры и элемент-в-видео модели) различных размеров (1.3B, 5B, 14B) для продвижения дальнейших исследований и применений в академии и промышленности.

Kunlun Wanwei выпускает SkyReels-V2 - модель генерации фильмов бесконечной длины

Kunlun Wanwei выпускает SkyReels-V2 - модель генерации фильмов бесконечной длины

🎥 Демонстрации

Технические инновации

1. Кинематографическая модель понимания видео: SkyCaptioner-V1

2. Оптимизация предпочтений движения

3. Эффективный фреймворк Diffusion Forcing

4. Прогрессивное предобучение разрешения и многоэтапная оптимизация пост-обучения

Производительность

Сценарии применения

Модели с открытым исходным кодом

Связанные ссылки

Комментарии