PUSA V1.0: 저비용 고성능 비디오 생성 모델 출시

2025년 7월 16일, PUSA V1.0이 공식 출시되었습니다. 최신 Wan2.1-T2V-14B를 기반으로 한 이 모델은 벡터화된 타임스텝 적응(VTA) 기술을 도입하여, 원래 데이터셋의 1/2500, 학습 비용의 1/200, 추론 단계의 1/5만으로도 Wan-I2V-14B의 성능을 뛰어넘었습니다.

PUSA V1.0이란?

PUSA V1.0은 새로운 벡터화된 타임스텝 적응(VTA) 기술을 특징으로 하는 오픈소스 AI 비디오 생성 모델입니다. 단일 타임스텝을 사용하는 기존의 비디오 확산 모델과 달리, PUSA는 각 프레임에 대해 더 세밀한 노이즈 제어가 가능하여 더 높은 생성 품질과 더 풍부한 멀티태스크 기능을 제공합니다.

주요 특징 및 혁신

벡터화된 타임스텝 적응(VTA): 스칼라 타임스텝의 한계를 극복하고 프레임 수준의 유연한 제어를 가능하게 합니다.
고효율: 단 3,860개의 비디오 샘플, 약 500달러의 학습 비용, 그리고 크게 감소된 추론 단계만으로 구현됩니다.
멀티태스크 지원: 이미지-비디오 변환(I2V), 키프레임 생성, 비디오 완성, 비디오 확장, 텍스트-비디오 변환(T2V), 비디오 전환 등을 지원합니다.
비파괴적 미세조정: LoRA 미세조정을 통해 원래 모델의 모든 기능을 유지하면서 새로운 기능을 추가하여 강력한 호환성을 보장합니다.
오픈소스: 모델 가중치, 학습 데이터, 추론 및 학습 코드가 커뮤니티와 산업 연구·응용을 위해 완전히 공개되어 있습니다.

Wan-I2V와의 비교

PUSA V1.0은 훨씬 적은 학습 리소스와 데이터로 Wan-I2V-14B의 성능을 뛰어넘습니다. Wan-I2V는 이미지-비디오 변환만을 지원하는 반면, PUSA V1.0은 여러 작업을 통합하고 VBench-I2V 평가에서 더 높은 점수(87.32% vs 86.86%)를 획득했습니다.

응용 시나리오

AI 창의적 비디오 생성: 이미지나 텍스트에서 고품질 단편 비디오를 빠르게 생성합니다.
비디오 완성 및 확장: 키프레임 완성을 포함한 기존 비디오의 완성 또는 확장이 가능합니다.
다중 프레임 키프레임 보간: 여러 키프레임에서 부드러운 비디오 전환을 생성합니다.
교육, 엔터테인먼트, 광고: 크리에이터, 교육자, 광고주를 위한 효율적인 비디오 생성 도구를 제공합니다.

시각적 데모

다음은 PUSA V0.5의 애니메이션 예시입니다. V1.0은 멀티태스크 기능과 생성 품질을 더욱 향상시켰습니다:

PUSA V1.0의 출시로 비디오 생성 기술이 더욱 접근하기 쉽고 효율적으로 되었습니다. 혁신적인 VTA 방식은 품질을 향상시킬 뿐만 아니라 개발과 응용의 진입장벽을 크게 낮추었습니다.