FramePack: 비디오 생성을 위한 효율적인 다음 프레임 예측 모델

Lvmin Zhang과 Maneesh Agrawala는 최근 다음 프레임 예측 모델에 새로운 솔루션을 제공하는 비디오 생성 기술인 FramePack을 발표했습니다. FramePack은 혁신적인 입력 프레임 압축 방법을 사용하여 비디오 생성 작업량을 비디오 길이와 무관하게 만들어, 사용자가 일반 하드웨어에서도 고품질의 장시간 비디오를 생성할 수 있게 합니다.

핵심 기술적 특징

FramePack의 주요 장점은 입력 컨텍스트를 일정한 길이로 압축하여 생성 작업량이 비디오 길이와 독립적이 되도록 하는 데 있습니다. 구체적인 특징은 다음과 같습니다:

6GB VRAM만 있는 노트북 GPU에서도 130억 파라미터 모델로 수많은 프레임 처리 가능
이미지 확산 훈련에 사용되는 것과 유사한 배치 크기로 훈련 가능
RTX 4090에서 프레임당 1.5-2.5초의 생성 속도
시간 단계 증류 기술 불필요

비디오 생성의 주요 과제 해결

전통적인 비디오 생성은 두 가지 주요 문제에 직면합니다: 망각(모델이 이전 콘텐츠를 기억하기 어려움)과 드리프트(시간이 지남에 따라 오류가 축적되어 시각적 품질이 저하됨). FramePack은 다음 두 가지 방식으로 이러한 문제를 해결합니다:

프레임 압축 메커니즘: 프레임 중요도에 따라 다른 컨텍스트 길이를 할당하여, 예측 대상에 가장 가까운 프레임에 더 많은 리소스 제공
안티-드리프트 샘플링: 시간 경과에 따른 품질 저하를 방지하기 위해 엄격한 인과 의존성 대신 양방향 컨텍스트 사용

실제 시연

다음은 FramePack이 단일 이미지에서 비디오를 생성하는 시연입니다:

예시 1: 춤 동작 생성

입력 이미지

생성된 비디오

예시 2: 동적 장면 생성