Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиВыпущен Open-Sora 2.0: коммерческая генерация видео по низкой цене

Выпущен Open-Sora 2.0: коммерческая генерация видео по низкой цене

hpcaitech (команда ColossalAI) официально выпустила Open-Sora 2.0, модель генерации видео с открытым исходным кодом с 11 миллиардами параметров, которая привлекла широкое внимание за баланс стоимости и производительности. Всего за около $200,000 в затратах на обучение (эквивалентно 224 GPU), модель показывает производительность, близкую к топовым коммерческим моделям в множественных оценках.

Видео демонстрации

Примечание: GIF выше сжаты. Для оригинальных высококачественных видео, пожалуйста, посетите официальную страницу демонстрации

Производительность

В авторитетной оценке VBench, разрыв в производительности между Open-Sora 2.0 и моделью Sora от OpenAI сократился с 4.52% в предыдущем поколении до всего 0.69%, почти достигнув паритета. Тесты пользовательских предпочтений показывают, что модель превосходит нескольких конкурентов в визуальном качестве (69.5% выигрышная ставка), согласованности текста (55.6% выигрышная ставка) и других метриках, показывая сопоставимую производительность с коммерческими моделями, такими как HunyuanVideo (11B) от Tencent и Step-Video (30B).

Сравнение производительности в оценке VBench

Сравнение выигрышной ставки в тесте пользовательских предпочтений

Сравнение затрат на обучение модели

Технические инновации

За высокой производительностью Open-Sora 2.0 при низкой стоимости стоят несколько технических инноваций:

  • Эффективная архитектура модели: Использует 3D механизмы полного внимания и архитектуру MMDiT (Masked Motion Diffusion Transformer) для улучшения моделирования пространственно-временных особенностей
  • Стратегия приоритета низкого разрешения: Сначала изучает особенности движения, затем улучшает качество через Text-to-Image-to-Video (T2I2V), экономя 40x вычислительных ресурсов
  • Параллельная платформа обучения: Использует параллельную платформу ColossalAI, комбинированную с ZeroDP, Gradient Checkpointing и другими технологиями, достигая 99% использования GPU
  • Высокосжатый автоэнкодер: Сокращает время генерации видео 768px с 30 минут до 3 минут, улучшение скорости в 10 раз

Ценность для экосистемы открытого исходного кода

Как полнофункциональный проект с открытым исходным кодом, Open-Sora 2.0 публично выпустил веса модели, код обучения (включая предварительную обработку данных и распределенную оптимизацию) и технические отчеты на GitHub. Модель поддерживает различные сценарии применения:

  • Предварительная визуализация фильмов: Генерация раскадровок и прототипов спецэффектов
  • Рекламное творчество: Быстрое производство видео с несколькими сценами
  • Образовательный контент: Динамическая демонстрация физических принципов
  • Разработка игр: Автоматическая генерация анимаций поведения NPC и эффектов перехода сцен

Проект получил более ста цитирований статей в течение шести месяцев и привлек вклады экосистемы от нескольких компаний, включая NVIDIA, предоставляя значительный импульс для популяризации технологии генерации видео.

Практические функции

Open-Sora 2.0 предлагает богатый набор практических функций:

Поддержка множественного разрешения и соотношения сторон

Поддерживает разрешения 256px и 768px, способна обрабатывать видео с различными соотношениями сторон, включая 16:9, 9:16, 1:1 и 2.39:1.

Множественные режимы генерации

  • Текст-в-видео: Генерирует видео, соответствующие письменным описаниям
  • Изображение-в-видео: Трансформирует статические изображения в видео с динамическими эффектами
  • Контроль интенсивности движения: Настраивает амплитуду движения в видео через параметр Motion Score (1-7 баллов)

Баллы движения слева направо: 1, 4 и 7

Эффективный вывод

Модель эффективно работает на высокопроизводительных GPU (таких как H100/H800):

  • Генерация видео разрешения 256×256: приблизительно 60 секунд на одном GPU
  • Генерация видео разрешения 768×768: приблизительно 4.5 минуты с 8 GPU параллельно

Доступность и использование

Модель доступна для загрузки на следующих платформах:

Будущее развитие

Команда hpcaitech заявляет, что Open-Sora будет продолжать улучшаться с:

  • Поддержкой разрешения 4K и видео длиннее 1 минуты
  • Исследованием мультимодальных возможностей (синхронизированная генерация аудио, кросс-модальное редактирование)
  • Дальнейшим сокращением затрат на обучение и вывод

Этот прорыв ожидается значительно снизить барьеры для создания видеоконтента и продвинуть применение ИИ-видео инструментов в более широком диапазоне областей.

Связанные ссылки