ByteDance выпускает Seaweed-7B: Экономически эффективная базовая модель генерации видео

ByteDance недавно объявил о значительном прорыве в области генерации видео — Seaweed-7B, базовой модели генерации видео с только 7 миллиардами параметров, но исключительной производительностью. Согласно официальному техническому отчету, эта модель превосходит основные модели с удвоенным количеством параметров по ключевым задачам, требуя только около одной трети стоимости обучения.

Прорывная производительность и эффективность

Seaweed-7B (производное от “Seed-Video”) демонстрирует впечатляющую производительность по множественным ключевым метрикам:

Масштаб параметров: С только 7B параметрами превосходит модель Wan 2.1 с 14B параметрами
Стоимость обучения: Завершила обучение с 665,000 часами H100 GPU, в то время как подобные модели обычно требуют более 2 миллионов часов GPU
Скорость вывода: Способна генерировать видео 720p при 24fps в реальном времени, в 62 раза быстрее, чем сопоставимые модели
Требования к ресурсам: Требует только 40GB VRAM для поддержки генерации разрешения 1280×720, делая её доступной для малых и средних команд

В оценках генерации видео из изображений Seaweed-7B достигла оценки Elo 1047 с 58% выигрышной ставкой, по сравнению с Wan 2.1 (14B параметров) только 53%, и Sora, показывающей только 36%.

Три ключевые технические инновации

Экономическая эффективность Seaweed-7B происходит от трех ключевых технических инноваций:

1. Технология очистки данных

Команда ByteDance разработала 6-этапный пайплайн очистки данных, который использует временно-пространственную сегментацию, фильтрацию качества и синтетическое улучшение для сокращения доли неэффективных данных с 42% до 2.9%, увеличивая эффективные обучающие данные до 97.1% и улучшая эффективность использования данных в 4 раза с той же вычислительной мощностью.

2. Инновационный дизайн архитектуры

Модель использует VAE с коэффициентом сжатия 64× и архитектуру гибридного потока Transformer:

Дизайн VAE: Отказывается от традиционного сжатия на основе патчей в пользу каузальной 3D сверточной архитектуры, обеспечивая реконструкцию высокого разрешения 720p, одновременно улучшая скорость сходимости модели на 30%
Оптимизация Transformer: Инновационная архитектура гибридного потока Diffusion разделяет 2/3 параметров прямой сети, сокращая вычисления на 20% по сравнению с архитектурами двойного потока

3. Прогрессивная стратегия обучения

Обучение модели разделено на четыре этапа:

Фундамент изображений (256p): Начиная со статических изображений для построения прочного визуального фундамента
Инициация короткого видео (360p): Обработка коротких последовательностей 3-5 секунд, фокусируясь на согласованности действий
Прорыв высокого разрешения (720p): Оптимизация деталей высокого разрешения, увеличивая задачи текст-в-видео до 80%
Тонкая настройка пост-обработки: Улучшение эстетических эффектов через SFT, оптимизация структуры движения с RLHF для избежания неестественных движений

Широкий спектр применений

Как базовая модель, Seaweed-7B поддерживает множественные нисходящие приложения:

Генерация видео из изображений: Создание согласованных видео из одиночных изображений или первого и последнего кадров
Генерация человеческого видео: Генерация реалистичных человеческих персонажей с разнообразными действиями и выражениями
Совместная генерация аудио-видео: Одновременная генерация соответствующего аудио и видеоконтента
Длинные видео и повествование: Поддержка односъемочных видео до одной минуты и многосъемочного длинного повествования
Генерация в реальном времени: Генерация видео 720p при 24fps в реальном времени
Генерация супер-разрешения: Увеличение видео до разрешения 2K QHD (2560×1440)
Генерация с контролем камеры: Реализация точного контроля камеры через определенные траектории для интерактивного исследования мира

Улучшенная физическая согласованность

Через пост-обучение на синтетических CGI-рендеренных видео, Seaweed-7B также улучшает физическую согласованность в генерации видео, одновременно сохраняя фотореалистичное качество, делая сложные действия и 3D сцены более естественными и реалистичными.

OpenMOSS выпускает MOVA - модель синхронизированной генерации видео и аудио с открытым исходным кодом