Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
ByteDance выпускает Seaweed-7B: Экономически эффективная базовая модель генерации видео
ByteDance недавно объявил о значительном прорыве в области генерации видео — Seaweed-7B, базовой модели генерации видео с только 7 миллиардами параметров, но исключительной производительностью. Согласно официальному техническому отчету, эта модель превосходит основные модели с удвоенным количеством параметров по ключевым задачам, требуя только около одной трети стоимости обучения.
Прорывная производительность и эффективность
Seaweed-7B (производное от “Seed-Video”) демонстрирует впечатляющую производительность по множественным ключевым метрикам:
- Масштаб параметров: С только 7B параметрами превосходит модель Wan 2.1 с 14B параметрами
- Стоимость обучения: Завершила обучение с 665,000 часами H100 GPU, в то время как подобные модели обычно требуют более 2 миллионов часов GPU
- Скорость вывода: Способна генерировать видео 720p при 24fps в реальном времени, в 62 раза быстрее, чем сопоставимые модели
- Требования к ресурсам: Требует только 40GB VRAM для поддержки генерации разрешения 1280×720, делая её доступной для малых и средних команд
В оценках генерации видео из изображений Seaweed-7B достигла оценки Elo 1047 с 58% выигрышной ставкой, по сравнению с Wan 2.1 (14B параметров) только 53%, и Sora, показывающей только 36%.
Три ключевые технические инновации
Экономическая эффективность Seaweed-7B происходит от трех ключевых технических инноваций:
1. Технология очистки данных
Команда ByteDance разработала 6-этапный пайплайн очистки данных, который использует временно-пространственную сегментацию, фильтрацию качества и синтетическое улучшение для сокращения доли неэффективных данных с 42% до 2.9%, увеличивая эффективные обучающие данные до 97.1% и улучшая эффективность использования данных в 4 раза с той же вычислительной мощностью.
2. Инновационный дизайн архитектуры
Модель использует VAE с коэффициентом сжатия 64× и архитектуру гибридного потока Transformer:
- Дизайн VAE: Отказывается от традиционного сжатия на основе патчей в пользу каузальной 3D сверточной архитектуры, обеспечивая реконструкцию высокого разрешения 720p, одновременно улучшая скорость сходимости модели на 30%
- Оптимизация Transformer: Инновационная архитектура гибридного потока Diffusion разделяет 2/3 параметров прямой сети, сокращая вычисления на 20% по сравнению с архитектурами двойного потока
3. Прогрессивная стратегия обучения
Обучение модели разделено на четыре этапа:
- Фундамент изображений (256p): Начиная со статических изображений для построения прочного визуального фундамента
- Инициация короткого видео (360p): Обработка коротких последовательностей 3-5 секунд, фокусируясь на согласованности действий
- Прорыв высокого разрешения (720p): Оптимизация деталей высокого разрешения, увеличивая задачи текст-в-видео до 80%
- Тонкая настройка пост-обработки: Улучшение эстетических эффектов через SFT, оптимизация структуры движения с RLHF для избежания неестественных движений
Широкий спектр применений
Как базовая модель, Seaweed-7B поддерживает множественные нисходящие приложения:
- Генерация видео из изображений: Создание согласованных видео из одиночных изображений или первого и последнего кадров
- Генерация человеческого видео: Генерация реалистичных человеческих персонажей с разнообразными действиями и выражениями
- Совместная генерация аудио-видео: Одновременная генерация соответствующего аудио и видеоконтента
- Длинные видео и повествование: Поддержка односъемочных видео до одной минуты и многосъемочного длинного повествования
- Генерация в реальном времени: Генерация видео 720p при 24fps в реальном времени
- Генерация супер-разрешения: Увеличение видео до разрешения 2K QHD (2560×1440)
- Генерация с контролем камеры: Реализация точного контроля камеры через определенные траектории для интерактивного исследования мира
Улучшенная физическая согласованность
Через пост-обучение на синтетических CGI-рендеренных видео, Seaweed-7B также улучшает физическую согласованность в генерации видео, одновременно сохраняя фотореалистичное качество, делая сложные действия и 3D сцены более естественными и реалистичными.