Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
TTT-Video: Технология для генерации длинных видео
Исследователи недавно выпустили проект с открытым исходным кодом под названием TTT-Video, технологию, которая прорывает традиционные временные ограничения генерации видео ИИ, способную производить согласованный видеоконтент длиной до 63 секунд. Эта технология решает проблемы согласованности контента в генерации длинных видео через инновационный метод Test-Time Training.
Решение ключевых проблем в генерации видео
В настоящее время большинство моделей генерации видео ИИ могут создавать только короткие видеоклипы длиной 3-5 секунд. Это происходит потому, что модели Transformer, используемые для генерации видео, имеют квадратично растущие вычислительные затраты при обработке длинных последовательностей из-за их механизма самовнимания, что делает неэффективной обработку длинных видео.
TTT-Video решает эту проблему инновационным способом: она сохраняет слои внимания оригинальной предобученной модели для локального внимания на каждом 3-секундном сегменте, одновременно вводя специальные слои Test-Time Training для обработки отношений на больших расстояниях в глобальном контексте.
Техническая реализация
Проект основан на модели CogVideoX 5B (диффузионный Transformer для генерации видео из текста) с ключевыми инновациями, включающими:
- Введение слоев TTT для обработки глобальной последовательности и её обращенной версии, комбинируя выходы через управляемые остаточные соединения
- Расширение контекста путем чередования каждого сегмента с текстовыми и видео встраиваниями
- Обучение по этапам: сначала тонкая настройка на оригинальной предобученной длине видео 3 секунды, затем постепенное обучение на длинах видео 9, 18, 30 и 63 секунды
Архитектура модели TTT-Video: Обработка глобальных последовательностей через слои TTT в сочетании с механизмами локального внимания
Исследовательская команда использовала классический мультфильм “Том и Джерри” в качестве тестового случая, генерируя стилистически согласованные и связно анимированные видео длиной около одной минуты, хотя ограниченные размером 5B параметров, все еще есть возможности для улучшения качества генерации.
Впечатляющие результаты генерации
Самым впечатляющим аспектом TTT-Video является её способность генерировать анимации в стиле “Том и Джерри” длиной до одной минуты за один проход, с:
- Отсутствием необходимости в любом редактировании, склеивании или пост-обработке
- Контентом, который полностью оригинален, со сценами, которых не существует в оригинальном мультфильме
- Согласованными действиями персонажей, переходами сцен и сюжетными линиями
Кадры анимации, сгенерированные TTT-Video в стиле Том и Джерри
Значение для создателей ИИ
Эта технология означает следующее для создателей ИИ, использующих инструменты, такие как ComfyUI:
- Потенциал для более длинной, более повествовательной генерации видео ИИ в будущем
- Решения ключевых проблем согласованности и связности в генерации видео
- Возможность для создателей создавать более длинный видеоконтент без ручного склеивания множественных сегментов