쿤룬완웨이, SkyReels-V2 무한 길이 영화 생성 모델 출시
2025. 04. 21.
쿤룬완웨이, SkyReels-V2 무한 길이 영화 생성 모델 출시
4월 21일, 쿤룬완웨이의 SkyReels 팀이 공식적으로 SkyReels-V2를 출시하고 오픈 소스화했습니다. 이는 Diffusion Forcing 프레임워크를 사용하는 세계 최초의 무한 길이 영화 생성 모델입니다. 이 모델은 다중 모달 대형 언어 모델(MLLM), 다단계 사전 훈련, 강화 학습 및 Diffusion Forcing 프레임워크를 결합하여 협업 최적화를 달성하며, 30초, 40초 또는 그 이상의 고품질 비디오를 생성할 수 있습니다.
🎥 시연
위의 시연은 SkyReels-V2 Diffusion Forcing 모델을 사용하여 생성된 30초 비디오를 보여줍니다.
기술 혁신
SkyReels-V2는 여러 기술 혁신을 통해 고품질 비디오 생성을 달성합니다:
1. 영화급 비디오 이해 모델: SkyCaptioner-V1
팀은 다중 모달 LLM의 일반 설명과 하위 전문가 모델의 세부 샷 언어를 결합한 구조화된 비디오 표현 방법을 설계했습니다. 이 방법은 비디오에서 주제 유형, 외관, 표정, 행동 및 위치를 식별합니다.
SkyCaptioner-V1은 비디오 데이터를 효율적으로 이해하고 원래 구조 정보에 맞는 다양한 설명을 생성합니다. 이 모델은 일반 비디오 콘텐츠를 이해할 뿐만 아니라 영화 장면에서 전문적인 촬영 언어를 포착하여 생성된 비디오의 프롬프트 준수 능력을 크게 향상시킵니다. 이 모델은 현재 오픈 소스화되어 직접 사용할 수 있습니다.
2. 운동 선호 최적화
팀은 인간 주석 및 합성 왜곡 데이터를 사용한 강화 학습 훈련을 통해 기존 비디오 생성 모델의 동적 왜곡 및 비현실적인 움직임 문제를 해결했습니다. 그들은 선호 비교 데이터 쌍을 효율적으로 생성하기 위해 반자동 데이터 수집 파이프라인을 설계했습니다.
이 접근 방식은 SkyReels-V2가 운동 역학에서 뛰어난 성능을 발휘하도록 하여 유동적이고 사실적인 비디오 콘텐츠를 생성할 수 있게 합니다.
3. 효율적인 Diffusion Forcing 프레임워크
긴 비디오 생성 기능을 달성하기 위해 팀은 Diffusion Forcing 후 훈련 방법을 제안했습니다. 사전 훈련된 확산 모델을 미세 조정하고 이를 Diffusion Forcing 모델로 변환함으로써 훈련 비용을 줄이고 생성 효율성을 크게 향상시켰습니다.
팀은 비감소 노이즈 시간 일정을 채택하여 연속 프레임의 디노이징 일정 검색 공간을 O(1e48)에서 O(1e32)로 줄여 긴 비디오의 효율적인 생성을 가능하게 했습니다.
4. 점진적 해상도 사전 훈련 및 다단계 후 훈련 최적화
전문 영화 생성 모델을 개발하기 위해 팀의 다단계 품질 보증 프레임워크는 일반 데이터 세트, 자가 수집 미디어 및 예술 자원 라이브러리의 세 가지 주요 출처에서 데이터를 통합했습니다.
이 데이터 기반을 바탕으로 팀은 점진적 해상도 사전 훈련을 통해 기본 비디오 생성 모델을 먼저 구축한 후, 초기 개념 균형 감독 미세 조정, 운동 특정 강화 학습 훈련, Diffusion Forcing 프레임워크 및 고품질 SFT의 네 단계의 후속 훈련 향상을 진행했습니다.
성능
SkyReels-V2는 여러 평가에서 우수한 성능을 보여줍니다:
-
SkyReels-Bench T2V 다차원 인간 평가에서 SkyReels-V2는 지침 준수(3.15) 및 일관성(3.35)에서 가장 높은 기준을 달성했으며, 비디오 품질(3.34) 및 운동 품질(2.74)에서도 1급 성능을 유지했습니다.
-
VBench1.0 자동 평가에서 SkyReels-V2는 HunyuanVideo-13B 및 Wan2.1-14B를 포함한 모든 비교 모델을 초과하여 가장 높은 총 점수(83.9%) 및 품질 점수(84.7%)를 기록했습니다.
응용 시나리오
SkyReels-V2는 여러 실용적인 응용 시나리오에 강력한 지원을 제공합니다:
-
스토리 생성: 슬라이딩 윈도우 방법과 안정화 기술을 사용하여 이론적으로 무한 길이의 비디오를 생성할 수 있습니다.
-
이미지-비디오 합성: 이미지-비디오 생성을 위한 두 가지 방법을 제공하며, 모든 품질 차원에서 다른 오픈 소스 모델을 초과하고 폐쇄형 모델과 비교할 수 있습니다.
-
카메라 감독 기능: 특별히 선택된 샘플과 미세 조정 실험을 통해 사진 효과를 크게 개선하며, 특히 카메라 움직임의 유동성과 다양성을 향상시킵니다.
-
요소-비디오 생성: SkyReels-V2 기본 모델을 기반으로 한 SkyReels-A2 솔루션은 임의의 시각적 요소를 텍스트 프롬프트에 의해 안내된 일관된 비디오로 결합할 수 있습니다.
오픈 소스 모델
쿤룬완웨이 SkyReels 팀은 SkyCaptioner-V1 및 SkyReels-V2 시리즈 모델(여기에는 Diffusion Forcing, 텍스트-비디오, 이미지-비디오, 카메라 감독 및 요소-비디오 모델 포함)을 다양한 크기(1.3B, 5B, 14B)로 완전히 오픈 소스화하여 학계와 산업에서의 추가 연구 및 응용을 촉진하고 있습니다.