Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
Выпущен SkyReels-V2: Модель с открытым исходным кодом, поддерживающая генерацию видео бесконечной длины
Команда SkyworkAI недавно выпустила новую модель генерации видео, SkyReels-V2, прорывной проект с открытым исходным кодом, способный генерировать видео кинематографического качества теоретически бесконечной длины. Модель использует инновационный фреймворк “Diffusion Forcing” и поддерживает как методы генерации текст-в-видео (T2V), так и изображение-в-видео (I2V).
Ключевые особенности
SkyReels-V2 приносит множественные инновации в область генерации видео:
- Генерация видео бесконечной длины: Используя технологию diffusion forcing, модель может генерировать видео теоретически неограниченной длины
- Поддержка мультимодального ввода: Поддерживает как функциональность текст-в-видео, так и изображение-в-видео
- Высококачественные визуальные результаты: В человеческих оценках её визуальная производительность приближается к коммерческим моделям с закрытым исходным кодом, таким как Kling-1.6 и Runway Gen-4
- Полностью открытый исходный код и дружественный к коммерческому использованию: Как код, так и веса модели открыты с исходным кодом и доступны для коммерческих проектов
- Модель подписи видео: Также включает SkyCaptioner-V1, специализированную модель для понимания видео
Серия моделей
SkyReels-V2 предлагает множественные варианты моделей с различными размерами и разрешениями:
- Модели Diffusion Forcing (DF): Специально разработанные для генерации видео бесконечной длины, доступные в версиях 1.3B-540P и 14B-720P
- Модели текст-в-видео (T2V): Сосредоточенные на генерации высококачественных видео из текстовых промптов
- Модели изображение-в-видео (I2V): Способные генерировать согласованные видеопоследовательности из входных изображений
Технические особенности
SkyReels-V2 использует несколько передовых технологий:
- Видео подписчик (SkyCaptioner-V1): Тонко настроенная от модели Qwen2.5-VL-7B-Instruct, значительно превосходящая существующие модели в понимании видеоконтента
- Обучение с подкреплением: Оптимизирует качество движения для решения проблем с большими, деформируемыми движениями и соответствием физике
- Diffusion Forcing: Инновационная стратегия обучения и выборки, позволяющая независимые уровни шума для каждого токена
- Высококачественная контролируемая тонкая настройка: Улучшает визуальное качество через двухэтапный процесс тонкой настройки
Производительность
В человеческих оценках SkyReels-V2 достиг отличных результатов в следовании инструкциям, согласованности и визуальном качестве:
- В задачах текст-в-видео SkyReels-V2 достиг среднего счета 3.14, превзойдя другие модели с открытым исходным кодом, включая Wan2.1-14B
- В задачах изображение-в-видео SkyReels-V2-I2V достиг среднего счета 3.29, приближаясь к производительности коммерческих моделей с закрытым исходным кодом
Требования к оборудованию
Обратите внимание, что SkyReels-V2 имеет относительно высокие требования к оборудованию:
- Генерация видео 540P с моделью 1.3B требует примерно 14.7GB VRAM
- Генерация видео 540P с моделью 14B требует примерно 43.4GB VRAM
- Генерация длинных видео или более высоких разрешений потребует дополнительных ресурсов
Связанные ссылки
Выпуск SkyReels-V2 представляет значительный прогресс в генерации видео ИИ, особенно в синтезе длинных видео, предоставляя создателям и разработчикам новые возможности. С запланированным выпуском дополнительных моделей серии 5B и моделей режиссера камеры, мы можем ожидать дальнейших инноваций от этой технологии в будущем.