Skip to content
새소식Kuaishou와 PKU, 피라미드 플로우 매칭 비디오 생성 모델 공동 출시

Kuaishou와 PKU, 피라미드 플로우 매칭 비디오 생성 모델 공동 출시

최근 Kuaishou Technology와 Peking University의 연구팀은 새로운 비디오 생성 모델인 피라미드 플로우 매칭을 공동으로 소개했습니다. 이 모델은 플로우 매칭 자기회귀 비디오 생성 기술을 기반으로 하여 고품질의 장시간 비디오 콘텐츠를 생성할 수 있으며, 비디오 생성 분야에서 중요한 돌파구를 마련했습니다.

피라미드 플로우 매칭 모델 개요

피라미드 플로우 매칭 모델은 플로우 매칭 기술을 기반으로 개발된 훈련 효율적인 자기회귀 비디오 생성 모델입니다. 이 모델의 주요 특징은 다음과 같습니다:

  1. 오픈 소스 훈련 데이터: 이 모델은 오픈 소스 데이터셋만을 사용하여 훈련되었으며, 총 20.7k 시간의 A100 GPU 컴퓨팅 자원을 활용했습니다.
  2. 고해상도 출력: 1280x768 해상도의 비디오를 생성할 수 있습니다.
  3. 장시간 생성: 초당 24프레임으로 최대 10초 길이의 비디오 생성을 지원합니다.
  4. 모델 규모: 총 매개변수 수는 20억 개입니다.

모델 기능 시연

피라미드 플로우 매칭 모델은 텍스트 기반 비디오 생성 및 이미지 기반 비디오 생성을 포함한 다양한 비디오 생성 기능을 보여줍니다. 다음은 몇 가지 대표적인 예입니다:

1. 텍스트 기반 비디오 생성 (1280x768, 10초, 24FPS)

이 모델은 상세한 텍스트 설명을 기반으로 현실적인 비디오 장면을 생성할 수 있습니다. 예를 들어:

  • 설명: “아름다운 눈 내리는 도쿄 시내가 붐비고 있습니다. 카메라는 붐비는 시내 거리를 지나며, 아름다운 눈 내리는 날씨를 즐기고 근처 가판대에서 쇼핑하는 여러 사람들을 따라갑니다.”

    Vidéo de scène de neige à Tokyo

  • 설명: “해질녘, 자동차가 고속도로를 달리고 있으며, 백미러에는 다채로운 노을과 고요한 풍경이 비칩니다.”

    Vidéo de coucher de soleil sur l'autoroute

2. 텍스트 기반 비디오 생성 (1280x768, 5초, 24FPS)

이 모델은 짧지만 내용이 풍부한 비디오 클립도 생성할 수 있습니다:

  • 설명: “고양이가 잠든 주인을 깨우며 아침 식사를 요구합니다.”

    Vidéo de chat réveillant son propriétaire

  • 설명: “드론 카메라가 아말피 해안의 바위 절벽 위에 지어진 아름다운 역사적 교회를 돌며, 역사적이고 웅장한 건축 세부사항과 계단식 경로와 파티오를 보여줍니다.”

    Vidéo de l'église de la côte amalfitaine

3. 이미지 기반 비디오 생성 (1280x768, 5초, 24FPS)

이 모델은 정적인 이미지를 동적인 비디오로 변환할 수 있는 능력도 가지고 있습니다:

  • 설명: “도로를 달리는 자동차.”

    Vidéo de voiture sur la route

  • 설명: “FPV가 만리장성을 날아다니고 있습니다.”

    Vidéo de vol au-dessus de la Grande Muraille

기술적 하이라이트

  1. 플로우 매칭 기술: 플로우 매칭을 핵심 기술로 채택하여 비디오 생성의 일관성과 현실감을 향상시킵니다.
  2. 피라미드 구조: 비디오의 시공간 정보를 처리하기 위해 피라미드 구조를 사용하여 생성 품질을 효과적으로 개선합니다.
  3. 효율적인 훈련: 제한된 컴퓨팅 자원으로 오픈 소스 데이터셋만을 사용하여 고품질 비디오 생성을 달성합니다.
  4. 다양한 출력: 다양한 해상도와 길이의 비디오 생성을 지원하여 다양한 응용 시나리오에 적응합니다.

잠재적 응용 분야

피라미드 플로우 매칭 모델의 등장은 여러 분야에 새로운 가능성을 제공합니다:

  1. 창의적 콘텐츠 제작: 광고, 영화 예고편 및 기타 창의적 콘텐츠 제작을 위한 새로운 도구를 제공합니다.
  2. 교육 및 훈련: 교육 비디오 또는 시뮬레이션 시나리오를 신속하게 생성합니다.
  3. 게임 개발: 게임 장면 및 애니메이션 생성에 도움을 줍니다.
  4. 가상 현실: VR/AR 애플리케이션을 위한 풍부한 시각 콘텐츠를 생성합니다.

결론

Kuaishou Technology와 Peking University가 공동 개발한 피라미드 플로우 매칭 모델은 비디오 생성 기술의 최신 발전을 나타냅니다. 플로우 매칭과 피라미드 구조를 결합하여 이 모델은 고품질의 장시간 비디오 콘텐츠를 생성할 수 있으며, AI 비디오 생성 분야에 새로운 가능성을 제공합니다. 기술이 더욱 발전하고 응용이 확산됨에 따라, 우리는 더 많은 놀라운 AI 생성 비디오 콘텐츠를 기대할 수 있습니다.

관심 있는 독자들은 프로젝트 공식 웹사이트를 방문하여 모델의 강력한 기능을 직접 경험하고 더 많은 세부사항을 배울 수 있습니다.