Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
Kunlun Wanwei выпускает SkyReels-V2 - модель генерации фильмов бесконечной длины
21 апреля команда SkyReels Kunlun Wanwei официально выпустила и открыла исходный код SkyReels-V2 — первой в мире модели генерации фильмов бесконечной длины, использующей фреймворк Diffusion Forcing. Комбинируя мультимодальные крупные языковые модели (MLLM), многоэтапное предобучение, обучение с подкреплением и фреймворк Diffusion Forcing, эта модель достигает совместной оптимизации и может генерировать высококачественные видео длиной 30 секунд, 40 секунд или даже дольше.
🎥 Демонстрации
Демонстрации выше показывают 30-секундные видео, сгенерированные с использованием модели SkyReels-V2 Diffusion Forcing.
Технические инновации
SkyReels-V2 достигает высококачественной генерации видео через несколько технических инноваций:
1. Кинематографическая модель понимания видео: SkyCaptioner-V1
Команда разработала структурированный метод представления видео, который комбинирует общие описания от мультимодальных LLM с детальным языком кадров от суб-экспертных моделей. Этот метод идентифицирует типы объектов, внешности, выражения, действия и позиции в видео.
SkyCaptioner-V1 эффективно понимает данные видео и генерирует разнообразные описания, согласованные с оригинальной структурной информацией. Он не только понимает общий видеоконтент, но также захватывает профессиональный кинематографический язык в кинематографических сценах, значительно улучшая следование промптам в сгенерированных видео. Эта модель теперь открыта с исходным кодом и доступна для прямого использования.
2. Оптимизация предпочтений движения
Через обучение с подкреплением, используя человеческую аннотацию и синтетические данные искажения, команда решала проблемы динамического искажения и нереалистичного движения в существующих моделях генерации видео. Они разработали полуавтоматический пайплайн сбора данных для эффективной генерации пар данных сравнения предпочтений.
Этот подход позволяет SkyReels-V2 превосходить в динамике движения, генерируя плавный и реалистичный видеоконтент, который соответствует требованиям к высококачественному движению.
3. Эффективный фреймворк Diffusion Forcing
Для достижения возможностей генерации длинных видео команда предложила метод пост-обучения Diffusion Forcing. Тонко настраивая предобученные диффузионные модели и конвертируя их в модели Diffusion Forcing, они не только сократили затраты на обучение, но также значительно улучшили эффективность генерации.
Команда приняла неубывающий график шумового времени, сокращая пространство поиска для графиков деноизинга непрерывных кадров с O(1e48) до O(1e32), обеспечивая эффективную генерацию длинных видео.
4. Прогрессивное предобучение разрешения и многоэтапная оптимизация пост-обучения
Для разработки профессиональной модели генерации фильмов многоэтапная система обеспечения качества команды интегрировала данные из трех основных источников: общих наборов данных, самостоятельно собранных медиа и библиотек художественных ресурсов.
Основываясь на этой основе данных, команда сначала установила базовую модель генерации видео через прогрессивное предобучение разрешения, за которым последовали четыре этапа последующих улучшений обучения: начальная сбалансированная по концепции контролируемая тонкая настройка, специфичное для движения обучение с подкреплением, фреймворк Diffusion Forcing и высококачественная SFT.
Производительность
SkyReels-V2 демонстрирует отличную производительность в множественных оценках:
-
В многомерной человеческой оценке SkyReels-Bench T2V SkyReels-V2 достиг высочайших стандартов в следовании инструкциям (3.15) и согласованности (3.35), одновременно поддерживая производительность первого уровня в качестве видео (3.34) и качестве движения (2.74).
-
В автоматизированной оценке VBench1.0 SkyReels-V2 превзошел все модели сравнения с наивысшим общим счетом (83.9%) и счетом качества (84.7%), включая HunyuanVideo-13B и Wan2.1-14B.
Сценарии применения
SkyReels-V2 предоставляет мощную поддержку для множественных практических сценариев применения:
-
Генерация историй: Способна генерировать теоретически бесконечной длины видео, используя метод скользящего окна и техники стабилизации для создания длинных кадров с согласованными повествованиями.
-
Синтез изображение-в-видео: Предлагает два метода для генерации видео из изображений, превосходя другие модели с открытым исходным кодом по всем измерениям качества и сопоставимые с моделями с закрытым исходным кодом.
-
Функциональность режиссера камеры: Через специально отобранные образцы и эксперименты тонкой настройки значительно улучшает фотографические эффекты, особенно в плавности и разнообразии движения камеры.
-
Генерация элемент-в-видео: Основываясь на базовой модели SkyReels-V2, решение SkyReels-A2 может комбинировать произвольные визуальные элементы в согласованные видео, направляемые текстовыми промптами.
Модели с открытым исходным кодом
Команда SkyReels Kunlun Wanwei полностью открыла исходный код SkyCaptioner-V1 и серии моделей SkyReels-V2 (включая Diffusion Forcing, текст-в-видео, изображение-в-видео, режиссер камеры и элемент-в-видео модели) различных размеров (1.3B, 5B, 14B) для продвижения дальнейших исследований и применений в академии и промышленности.