Skip to content
더 나은 ComfyUI 지식베이스 구축을 돕기 후원자 되기
새소식FramePack: 비디오 생성을 위한 효율적인 다음 프레임 예측 모델

FramePack: 비디오 생성을 이미지 생성만큼 효율적으로 만들기

Lvmin Zhang과 Maneesh Agrawala는 최근 다음 프레임 예측 모델에 새로운 솔루션을 제공하는 비디오 생성 기술인 FramePack을 발표했습니다. FramePack은 혁신적인 입력 프레임 압축 방법을 사용하여 비디오 생성 작업량을 비디오 길이와 무관하게 만들어, 사용자가 일반 하드웨어에서도 고품질의 장시간 비디오를 생성할 수 있게 합니다.

핵심 기술적 특징

FramePack의 주요 장점은 입력 컨텍스트를 일정한 길이로 압축하여 생성 작업량이 비디오 길이와 독립적이 되도록 하는 데 있습니다. 구체적인 특징은 다음과 같습니다:

  • 6GB VRAM만 있는 노트북 GPU에서도 130억 파라미터 모델로 수많은 프레임 처리 가능
  • 이미지 확산 훈련에 사용되는 것과 유사한 배치 크기로 훈련 가능
  • RTX 4090에서 프레임당 1.5-2.5초의 생성 속도
  • 시간 단계 증류 기술 불필요

비디오 생성의 주요 과제 해결

전통적인 비디오 생성은 두 가지 주요 문제에 직면합니다: 망각(모델이 이전 콘텐츠를 기억하기 어려움)과 드리프트(시간이 지남에 따라 오류가 축적되어 시각적 품질이 저하됨). FramePack은 다음 두 가지 방식으로 이러한 문제를 해결합니다:

  1. 프레임 압축 메커니즘: 프레임 중요도에 따라 다른 컨텍스트 길이를 할당하여, 예측 대상에 가장 가까운 프레임에 더 많은 리소스 제공
  2. 안티-드리프트 샘플링: 시간 경과에 따른 품질 저하를 방지하기 위해 엄격한 인과 의존성 대신 양방향 컨텍스트 사용

실제 시연

다음은 FramePack이 단일 이미지에서 비디오를 생성하는 시연입니다:

예시 1: 춤 동작 생성

입력 이미지

입력 이미지

생성된 비디오

예시 2: 동적 장면 생성

입력 이미지

입력 이미지

생성된 비디오

일상 사용자를 위한 기술

FramePack의 설계는 뛰어난 사용성을 제공합니다:

  • 낮은 하드웨어 요구 사항: 최소 6GB VRAM만으로 RTX 30XX, 40XX, 50XX 시리즈 Nvidia GPU 지원
  • 긴 비디오 생성: 작은 GPU에서도 최대 60초(30fps, 1800프레임)의 비디오 생성 가능
  • 실시간 피드백: 프레임별로 생성되므로 전체 비디오가 완성되기 전에 생성 진행 상황을 확인 가능

관련 링크

FramePack은 비디오 생성을 이미지 생성만큼 간단하게 만들어, 콘텐츠 제작자들에게 일반 하드웨어에서도 부드럽고 고품질의 비디오 콘텐츠를 만들 수 있는 더 편리하고 효율적인 도구를 제공합니다.