쿤룬완웨이, SkyReels-A2 오픈소스화: 상업용 비디오 생성 프레임워크
2025년 4월 6일, 쿤룬완웨이는 최신 개발한 SkyReels-A2 모델을 공식적으로 오픈소스화했습니다. 이는 상업적 시나리오를 목표로 하는 세계 최초의 “요소에서 비디오로”(Elements-to-Video, E2V) 생성 프레임워크입니다. 혁신적인 이중 분기 아키텍처를 통해 이 프레임워크는 여러 참조 이미지를 일관되고 유동적인 비디오 콘텐츠로 변환할 수 있으며, AI 비디오 생성 기술이 실험 단계에서 실용적 응용 단계로 전환되었음을 나타냅니다.
기술 하이라이트: 이중 분기 아키텍처가 비디오 생성 병목 현상을 극복하다
SkyReels-A2의 핵심 혁신은 독특한 이중 분기 특성 인코딩 시스템에 있습니다:
-
공간 특성 분기: 정제된 VAE 인코더를 사용하여 이미지를 처리하고, 캐릭터, 객체, 배경 및 기타 요소의 텍스처와 세부 정보를 추출하여 생성된 비디오의 각 요소와 참조 이미지 간의 높은 일관성을 보장합니다.
-
의미 특성 분기: CLIP 시각 인코더와 MLP 프로젝션 레이어를 활용하여 요소 간의 고수준 의미 연관성을 포착하고, 교차 주의 메커니즘을 통해 확산 모델에 통합하여 장면의 논리적 일관성과 동적 연속성을 보장합니다.
이 디자인은 전통적인 비디오 생성 모델이 직면한 다중 요소 일관성 제어 및 복잡한 장면 의미 조정의 기술적 문제를 성공적으로 해결하여 생성된 비디오가 많은 폐쇄형 상업 모델보다 더 유동적이고 현실감 있게 만듭니다.
광범위한 응용: 전자상거래에서 영화 제작까지의 포괄적 지원
SkyReels-A2는 여러 분야에서 강력한 응용 잠재력을 보여줍니다:
-
가상 전자상거래: 호스트 이미지와 제품 이미지를 입력하기만 하면 동적 추천 비디오를 생성할 수 있어 전통 광고의 높은 비용과 긴 제작 주기의 문제를 해결합니다.
-
영화 제작: 여러 캐릭터와 배경의 조합을 지원하여 재난 영화의 집단 탈출이나 드라마의 캐릭터 상호작용과 같은 영화 수준의 인터랙티브 장면을 생성할 수 있으며, 구성 및 조명 효과는 전문적인 기준에 도달합니다.
-
음악 멀티미디어: 배경 요소와 리듬을 결합하여 음악 비디오 세그먼트를 생성할 수 있어 독립 음악가에게 저비용 창작 도구를 제공합니다.
오픈 소스 생태계: 산업 기술 접근성 증진
이번 오픈소스 출시는 쿤룬완웨이의 AI 비디오 분야 전략에서 중요한 단계입니다. 이전에 출시된 SkyReels-V1(단편 드라마 생성 모델)과 SkyReels-A1(표정 및 동작 제어 알고리즘)은 이미 대규모 개발자 생태계를 축적했습니다. SkyReels-A2는 추가로 다음을 제공합니다:
-
효율적인 추론 프레임워크: 단일 RTX 4090 GPU로 80초 만에 544p 비디오를 생성할 수 있으며, 다중 카드 병렬 처리 및 저 VRAM 최적화를 지원합니다.
-
구조화된 데이터 처리 파이프라인: 비디오 주석, 요소 분할에서 삼중항 매칭까지의 전체 워크플로우가 오픈소스로 제공되어 기업의 적용 문턱을 크게 낮춥니다.
모델 사양 및 기술 매개변수
SkyReels-A2는 다양한 응용 시나리오의 요구를 충족하기 위해 여러 모델 버전을 제공합니다:
- A2-Wan2.1-14B-Preview (출시됨): 약 81프레임을 480×832 해상도로 생성할 수 있습니다.
- A2-Wan2.1-14B (곧 출시 예정): Preview 버전과 동일한 비디오 매개변수를 가진 기본 버전입니다.
- A2-Wan2.1-14B-Infinity (곧 출시 예정): 해상도가 720×1080으로 증가된 무제한 길이 비디오 생성을 지원합니다.
이 모델은 비디오 확산 변환기 아키텍처를 기반으로 하며, 혁신적인 이중 분기 인코딩 시스템을 사용하여 참조 이미지에 대한 정밀한 제어를 달성하고, 생성된 비디오에서 객체, 캐릭터 및 배경 요소의 높은 일관성을 보장합니다.
최근 개발 계획
쿤룬완웨이 팀은 SkyReels-A2에 대한 최근 개발 계획을 발표했습니다:
- A2-Bench 평가 시스템 및 리더보드 출시
- 무제한 길이 비디오 생성을 지원하는 버전을 포함한 전체 모델 시퀀스 출시
- RTX 4090 GPU에 대한 추론 성능 최적화
- ComfyUI 지원 통합, 사용자가 그래픽 인터페이스를 통해 모델을 쉽게 사용할 수 있도록 합니다.
산업 영향 및 미래 전망
SkyReels-A2의 출시는 오픈소스 비디오 생성 모델의 상업용 등급 제어 능력의 공백을 메우고 전통적인 비디오 제작 프로세스를 변화시킬 수 있습니다. 업계 전문가들은 이 기술이 개인화된 콘텐츠 제작과 실시간 인터랙티브 미디어의 대중화를 가속화할 것이라고 믿고 있습니다. 예를 들어, 실시간 모션 캡처를 결합하여 라이브 스트리밍 전자상거래 비디오를 생성하거나 메타버스 시나리오를 위한 가상 환경을 동적으로 구축하는 것이 가능합니다.
쿤룬완웨이 팀은 장기 비디오의 시간적 일관성과 물리 엔진 상호작용에서 모델의 기능을 지속적으로 최적화하고, 3D 모델링 도구와의 깊은 통합을 탐색할 것이라고 밝혔습니다.
관련 링크
- SkyReels-A2 GitHub 리포지토리
- SkyReels-A2 Hugging Face 모델 페이지
- SkyReels-A2 프로젝트 홈페이지
- A2-Bench 평가 데이터셋
- SkyReels 공식 데모 사이트
- SkyReels Discord 커뮤니티