Skip to content
더 나은 ComfyUI 지식베이스 구축을 돕기 후원자 되기
새소식SkyReels-V2 출시: 무한 길이 비디오 생성을 지원하는 오픈소스 모델

SkyReels-V2 출시: 무한 길이 비디오 생성을 지원하는 오픈소스 모델

SkyReels Logo

SkyworkAI 팀이 최근 새로운 비디오 생성 모델인 SkyReels-V2를 출시했습니다. 이는 이론상 무한한 길이의 영화급 품질 비디오를 생성할 수 있는 혁신적인 오픈소스 프로젝트입니다. 이 모델은 혁신적인 “확산 강제”(Diffusion Forcing) 프레임워크를 채택하고 텍스트-투-비디오(T2V)와 이미지-투-비디오(I2V) 생성 방법을 모두 지원합니다.

주요 특징

SkyReels-V2는 비디오 생성 분야에 여러 혁신을 가져옵니다:

  • 무한 길이 비디오 생성: 확산 강제 기술을 사용하여 모델이 이론상 무제한 길이의 비디오를 생성할 수 있습니다
  • 다중 모달 입력 지원: 텍스트-투-비디오 및 이미지-투-비디오 기능을 모두 지원합니다
  • 고품질 시각적 결과: 인간 평가에서 Kling-1.6 및 Runway Gen-4와 같은 클로즈드 소스 상업 모델에 근접한 시각적 성능을 보여줍니다
  • 완전 오픈소스 및 상업적 사용 가능: 코드와 모델 가중치 모두 오픈소스이며 상업 프로젝트에 사용할 수 있습니다
  • 비디오 캡션 모델: 비디오 이해를 위한 특수 모델인 SkyCaptioner-V1도 포함되어 있습니다

모델 시리즈

SkyReels-V2는 다양한 크기와 해상도의 여러 모델 변형을 제공합니다:

  • 확산 강제(DF) 모델: 무한 길이 비디오 생성을 위해 특별히 설계되었으며, 1.3B-540P 및 14B-720P 버전으로 제공됩니다
  • 텍스트-투-비디오(T2V) 모델: 텍스트 프롬프트에서 고품질 비디오 생성에 중점을 둡니다
  • 이미지-투-비디오(I2V) 모델: 입력 이미지에서 일관된 비디오 시퀀스를 생성할 수 있습니다

기술적 하이라이트

SkyReels-V2는 여러 고급 기술을 채택하고 있습니다:

  1. 비디오 캡셔너(SkyCaptioner-V1): Qwen2.5-VL-7B-Instruct 모델에서 미세 조정되어 비디오 콘텐츠 이해에서 기존 모델을 크게 능가합니다
  2. 강화 학습: 큰 변형 가능한 움직임과 물리 법칙 준수 문제를 해결하기 위해 모션 품질을 최적화합니다
  3. 확산 강제: 각 토큰에 독립적인 노이즈 수준을 허용하는 혁신적인 훈련 및 샘플링 전략입니다
  4. 고품질 지도 미세 조정: 2단계 미세 조정 과정을 통해 시각적 품질을 향상시킵니다

성능

인간 평가에서 SkyReels-V2는 지시 준수, 일관성 및 시각적 품질에서 뛰어난 결과를 달성했습니다:

  • 텍스트-투-비디오 작업에서 SkyReels-V2는 평균 점수 3.14를 달성하여 Wan2.1-14B를 포함한 다른 오픈소스 모델을 능가했습니다
  • 이미지-투-비디오 작업에서 SkyReels-V2-I2V는 평균 점수 3.29를 달성하여 상업용 클로즈드 소스 모델 성능에 근접했습니다

하드웨어 요구 사항

SkyReels-V2는 비교적 높은 하드웨어 요구 사항이 있음을 유의하세요:

  • 1.3B 모델로 540P 비디오를 생성하려면 약 14.7GB VRAM이 필요합니다
  • 14B 모델로 540P 비디오를 생성하려면 약 43.4GB VRAM이 필요합니다
  • 긴 비디오 생성이나 더 높은 해상도에는 추가 리소스가 필요합니다

관련 링크

SkyReels-V2의 출시는 특히 장편 비디오 합성 분야에서 AI 비디오 생성의 중요한 발전을 나타내며, 창작자와 개발자에게 새로운 가능성을 제공합니다. 추가 5B 시리즈 모델과 카메라 디렉터 모델의 출시 계획과 함께, 우리는 이 기술이 미래에 더 많은 혁신을 가져올 것으로 기대할 수 있습니다.