PUSA V1.0: Доступная и высокоэффективная модель генерации видео

16 июля 2025 года была официально представлена модель PUSA V1.0. Она основана на последней версии Wan2.1-T2V-14B и внедряет технологию Vectorized Timestep Adaptation (VTA), что позволяет использовать всего 1/2500 исходного датасета, 1/200 затрат на обучение и 1/5 шагов вывода, при этом превосходя по качеству модель Wan-I2V-14B.

Что такое PUSA V1.0?

PUSA V1.0 — это открытая AI-модель для генерации видео, в которой реализована новая технология Vectorized Timestep Adaptation (VTA). В отличие от традиционных моделей, использующих один временной шаг, PUSA позволяет более точно управлять шумом для каждого кадра, что обеспечивает высокое качество генерации и поддержку различных задач.

Основные особенности и новшества

Vectorized Timestep Adaptation (VTA): Преодолевает ограничения скалярных временных шагов, обеспечивая гибкое управление на уровне кадров.
Высокая эффективность: Использует всего 3 860 видеороликов, примерно $500 на обучение и значительно меньше шагов вывода.
Многофункциональность: Поддерживает преобразование изображения в видео (I2V), генерацию ключевых кадров, дополнение и расширение видео, генерацию видео по тексту (T2V), переходы между видео и другие задачи.
Ненарушающее дообучение: Новые функции добавляются через LoRA-файнтюнинг без потери исходных возможностей модели, что обеспечивает совместимость.
Открытый исходный код: Веса модели, обучающие данные, код для вывода и обучения доступны для сообщества и исследователей.

Сравнение с Wan-I2V

PUSA V1.0 превосходит Wan-I2V-14B по производительности при значительно меньших затратах ресурсов и данных. Wan-I2V поддерживает только преобразование изображения в видео, тогда как PUSA V1.0 объединяет несколько задач и показывает более высокий результат в тесте VBench-I2V (87.32% против 86.86%).

Сценарии применения

AI-генерация креативных видео: Быстрое создание коротких видеороликов из изображения или текста.
Дополнение и расширение видео: Завершение или продление существующих видео, включая заполнение ключевых кадров.
Интерполяция между ключевыми кадрами: Создание плавных переходов между несколькими ключевыми кадрами.
Образование, развлечения, реклама: Эффективные инструменты генерации видео для создателей, преподавателей и рекламодателей.

Визуальные примеры

Ниже представлены анимированные примеры из версии PUSA V0.5. В версии 1.0 улучшены возможности по выполнению различных задач и качество генерации:

Выход PUSA V1.0 делает технологии генерации видео более доступными и эффективными. Новая технология VTA не только улучшает качество, но и снижает порог для разработки и внедрения подобных решений.