TTT-Video: Технология для генерации длинных видео

Исследователи недавно выпустили проект с открытым исходным кодом под названием TTT-Video, технологию, которая прорывает традиционные временные ограничения генерации видео ИИ, способную производить согласованный видеоконтент длиной до 63 секунд. Эта технология решает проблемы согласованности контента в генерации длинных видео через инновационный метод Test-Time Training.

Решение ключевых проблем в генерации видео

В настоящее время большинство моделей генерации видео ИИ могут создавать только короткие видеоклипы длиной 3-5 секунд. Это происходит потому, что модели Transformer, используемые для генерации видео, имеют квадратично растущие вычислительные затраты при обработке длинных последовательностей из-за их механизма самовнимания, что делает неэффективной обработку длинных видео.

TTT-Video решает эту проблему инновационным способом: она сохраняет слои внимания оригинальной предобученной модели для локального внимания на каждом 3-секундном сегменте, одновременно вводя специальные слои Test-Time Training для обработки отношений на больших расстояниях в глобальном контексте.

Техническая реализация

Проект основан на модели CogVideoX 5B (диффузионный Transformer для генерации видео из текста) с ключевыми инновациями, включающими:

Введение слоев TTT для обработки глобальной последовательности и её обращенной версии, комбинируя выходы через управляемые остаточные соединения
Расширение контекста путем чередования каждого сегмента с текстовыми и видео встраиваниями
Обучение по этапам: сначала тонкая настройка на оригинальной предобученной длине видео 3 секунды, затем постепенное обучение на длинах видео 9, 18, 30 и 63 секунды

Архитектура модели TTT-Video: Обработка глобальных последовательностей через слои TTT в сочетании с механизмами локального внимания

Исследовательская команда использовала классический мультфильм "Том и Джерри" в качестве тестового случая, генерируя стилистически согласованные и связно анимированные видео длиной около одной минуты, хотя ограниченные размером 5B параметров, все еще есть возможности для улучшения качества генерации.

Впечатляющие результаты генерации

Самым впечатляющим аспектом TTT-Video является её способность генерировать анимации в стиле "Том и Джерри" длиной до одной минуты за один проход, с:

Отсутствием необходимости в любом редактировании, склеивании или пост-обработке
Контентом, который полностью оригинален, со сценами, которых не существует в оригинальном мультфильме
Согласованными действиями персонажей, переходами сцен и сюжетными линиями

Пример сгенерированного видео в стиле Том и Джерри

Кадры анимации, сгенерированные TTT-Video в стиле Том и Джерри

Значение для создателей ИИ

Эта технология означает следующее для создателей ИИ, использующих инструменты, такие как ComfyUI:

Потенциал для более длинной, более повествовательной генерации видео ИИ в будущем
Решения ключевых проблем согласованности и связности в генерации видео
Возможность для создателей создавать более длинный видеоконтент без ручного склеивания множественных сегментов

TTT-Video: Технология для генерации длинных видео

Решение ключевых проблем в генерации видео

Техническая реализация

Впечатляющие результаты генерации

Значение для создателей ИИ

Связанные ссылки

Комментарии