Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
PUSA V1.0: Доступная и высокоэффективная модель генерации видео
16 июля 2025 года была официально представлена модель PUSA V1.0. Она основана на последней версии Wan2.1-T2V-14B и внедряет технологию Vectorized Timestep Adaptation (VTA), что позволяет использовать всего 1/2500 исходного датасета, 1/200 затрат на обучение и 1/5 шагов вывода, при этом превосходя по качеству модель Wan-I2V-14B.
Что такое PUSA V1.0?
PUSA V1.0 — это открытая AI-модель для генерации видео, в которой реализована новая технология Vectorized Timestep Adaptation (VTA). В отличие от традиционных моделей, использующих один временной шаг, PUSA позволяет более точно управлять шумом для каждого кадра, что обеспечивает высокое качество генерации и поддержку различных задач.
Основные особенности и новшества
- Vectorized Timestep Adaptation (VTA): Преодолевает ограничения скалярных временных шагов, обеспечивая гибкое управление на уровне кадров.
- Высокая эффективность: Использует всего 3 860 видеороликов, примерно $500 на обучение и значительно меньше шагов вывода.
- Многофункциональность: Поддерживает преобразование изображения в видео (I2V), генерацию ключевых кадров, дополнение и расширение видео, генерацию видео по тексту (T2V), переходы между видео и другие задачи.
- Ненарушающее дообучение: Новые функции добавляются через LoRA-файнтюнинг без потери исходных возможностей модели, что обеспечивает совместимость.
- Открытый исходный код: Веса модели, обучающие данные, код для вывода и обучения доступны для сообщества и исследователей.
Сравнение с Wan-I2V
PUSA V1.0 превосходит Wan-I2V-14B по производительности при значительно меньших затратах ресурсов и данных. Wan-I2V поддерживает только преобразование изображения в видео, тогда как PUSA V1.0 объединяет несколько задач и показывает более высокий результат в тесте VBench-I2V (87.32% против 86.86%).
Сценарии применения
- AI-генерация креативных видео: Быстрое создание коротких видеороликов из изображения или текста.
- Дополнение и расширение видео: Завершение или продление существующих видео, включая заполнение ключевых кадров.
- Интерполяция между ключевыми кадрами: Создание плавных переходов между несколькими ключевыми кадрами.
- Образование, развлечения, реклама: Эффективные инструменты генерации видео для создателей, преподавателей и рекламодателей.
Визуальные примеры
Ниже представлены анимированные примеры из версии PUSA V0.5. В версии 1.0 улучшены возможности по выполнению различных задач и качество генерации:
Выход PUSA V1.0 делает технологии генерации видео более доступными и эффективными. Новая технология VTA не только улучшает качество, но и снижает порог для разработки и внедрения подобных решений.
Ссылки по теме
- PUSA V1.0: модель и описание (Hugging Face)
- Обучающий датасет PUSA V1.0 (Hugging Face)
- Официальная страница проекта
- Технический отчет (PDF)
- arXiv статья: 2410.03160