Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиВыпущен SkyReels-V2: Модель с открытым исходным кодом, поддерживающая генерацию видео бесконечной длины

Выпущен SkyReels-V2: Модель с открытым исходным кодом, поддерживающая генерацию видео бесконечной длины

Логотип SkyReels

Команда SkyworkAI недавно выпустила новую модель генерации видео, SkyReels-V2, прорывной проект с открытым исходным кодом, способный генерировать видео кинематографического качества теоретически бесконечной длины. Модель использует инновационный фреймворк “Diffusion Forcing” и поддерживает как методы генерации текст-в-видео (T2V), так и изображение-в-видео (I2V).

Ключевые особенности

SkyReels-V2 приносит множественные инновации в область генерации видео:

  • Генерация видео бесконечной длины: Используя технологию diffusion forcing, модель может генерировать видео теоретически неограниченной длины
  • Поддержка мультимодального ввода: Поддерживает как функциональность текст-в-видео, так и изображение-в-видео
  • Высококачественные визуальные результаты: В человеческих оценках её визуальная производительность приближается к коммерческим моделям с закрытым исходным кодом, таким как Kling-1.6 и Runway Gen-4
  • Полностью открытый исходный код и дружественный к коммерческому использованию: Как код, так и веса модели открыты с исходным кодом и доступны для коммерческих проектов
  • Модель подписи видео: Также включает SkyCaptioner-V1, специализированную модель для понимания видео

Серия моделей

SkyReels-V2 предлагает множественные варианты моделей с различными размерами и разрешениями:

  • Модели Diffusion Forcing (DF): Специально разработанные для генерации видео бесконечной длины, доступные в версиях 1.3B-540P и 14B-720P
  • Модели текст-в-видео (T2V): Сосредоточенные на генерации высококачественных видео из текстовых промптов
  • Модели изображение-в-видео (I2V): Способные генерировать согласованные видеопоследовательности из входных изображений

Технические особенности

SkyReels-V2 использует несколько передовых технологий:

  1. Видео подписчик (SkyCaptioner-V1): Тонко настроенная от модели Qwen2.5-VL-7B-Instruct, значительно превосходящая существующие модели в понимании видеоконтента
  2. Обучение с подкреплением: Оптимизирует качество движения для решения проблем с большими, деформируемыми движениями и соответствием физике
  3. Diffusion Forcing: Инновационная стратегия обучения и выборки, позволяющая независимые уровни шума для каждого токена
  4. Высококачественная контролируемая тонкая настройка: Улучшает визуальное качество через двухэтапный процесс тонкой настройки

Производительность

В человеческих оценках SkyReels-V2 достиг отличных результатов в следовании инструкциям, согласованности и визуальном качестве:

  • В задачах текст-в-видео SkyReels-V2 достиг среднего счета 3.14, превзойдя другие модели с открытым исходным кодом, включая Wan2.1-14B
  • В задачах изображение-в-видео SkyReels-V2-I2V достиг среднего счета 3.29, приближаясь к производительности коммерческих моделей с закрытым исходным кодом

Требования к оборудованию

Обратите внимание, что SkyReels-V2 имеет относительно высокие требования к оборудованию:

  • Генерация видео 540P с моделью 1.3B требует примерно 14.7GB VRAM
  • Генерация видео 540P с моделью 14B требует примерно 43.4GB VRAM
  • Генерация длинных видео или более высоких разрешений потребует дополнительных ресурсов

Связанные ссылки

Выпуск SkyReels-V2 представляет значительный прогресс в генерации видео ИИ, особенно в синтезе длинных видео, предоставляя создателям и разработчикам новые возможности. С запланированным выпуском дополнительных моделей серии 5B и моделей режиссера камеры, мы можем ожидать дальнейших инноваций от этой технологии в будущем.