Open-Sora 2.0 출시: 저비용으로 상업급 비디오 생성 능력 구현

hpcaitech(ColossalAI 팀)는 최근 Open-Sora 2.0을 공식 출시했습니다. 이 모델은 110억 개의 매개변수를 가진 오픈 소스 비디오 생성 모델로, 비용과 성능의 균형을 이루는 특징으로 업계의 많은 관심을 받고 있습니다. 이 모델은 약 20만 달러(224개의 GPU에 해당)의 훈련 비용만으로도 여러 평가에서 최상급 상업 모델에 가까운 성능을 보여주었습니다.

비디오 시연

참고: 위 GIF는 압축 형식이며, 원본 고화질 비디오는 공식 전시 페이지를 방문해 주시기 바랍니다.

성능 평가

권위 있는 VBench 평가에서 Open-Sora 2.0은 OpenAI Sora 모델과의 성능 차이가 이전 세대의 4.52%에서 단 0.69%로 줄어들어 거의 동등한 수준에 도달했습니다. 사용자 선호도 테스트에서는 이 모델이 시각적 품질(69.5% 승률), 텍스트 일관성(55.6% 승률) 등 여러 지표에서 여러 경쟁 모델보다 우수한 성능을 보였으며, 텐센트 HunyuanVideo(11B) 및 Step-Video(30B)와 같은 상업 모델과 비슷한 성능을 나타냈습니다.

VBench 평가에서의 성능 비교

사용자 선호도 테스트 승률 비교

모델 훈련 비용 비교

기술 혁신

Open-Sora 2.0의 저비용 고성능 구현 뒤에는 일련의 기술 혁신이 있습니다:

효율적인 모델 아키텍처: 3D 전 주의 메커니즘과 MMDiT 아키텍처(마스크된 모션 확산 변환기)를 채택하여 시공간 특성 모델링 능력을 강화했습니다.
저해상도 우선 전략: 먼저 운동 특성을 학습한 후, 이미지에서 비디오(T2I2V)를 통해 화질을 향상시켜 40배의 계산 자원을 절약합니다.
병렬 훈련 프레임워크: hpcaitech의 ColossalAI 병렬 프레임워크를 활용하여 ZeroDP, Gradient Checkpointing 등의 기술을 결합하여 GPU 활용률을 99%로 끌어올렸습니다.
고압축 자기 인코더: 768px 비디오 생성 시간을 30분에서 3분으로 단축시켜 속도를 10배 향상시켰습니다.

오픈 소스 생태계 가치

전면 오픈 소스 프로젝트로서 Open-Sora 2.0은 GitHub에서 모델 가중치, 훈련 코드(데이터 전처리 및 분산 최적화 포함) 및 기술 보고서를 공개했습니다. 이 모델은 다양한 응용 분야를 지원합니다:

영화 예고: 스토리보드 스크립트 및 특수 효과 프로토타입 생성
광고 창의성: 다양한 장면 비디오를 신속하게 제작
교육 및 과학: 물리 법칙의 동적 시연
게임 개발: NPC 행동 애니메이션 및 장면 전환 효과 자동 생성

이 프로젝트는 반년 내에 논문 인용 수가 100회를 넘었으며, hpcaitech를 포함한 여러 기업이 생태계 공동 구축에 참여하여 비디오 생성 기술의 보급에 중요한 기여를 하고 있습니다.

실용 기능 및 특성

Open-Sora 2.0은 다양한 실용 기능을 갖추고 있습니다:

다양한 해상도 및 종횡비 지원

256px 및 768px 해상도를 지원하며, 16:9, 9:16, 1:1, 2.39:1 등 다양한 종횡비의 비디오 생성을 처리할 수 있습니다.

다양한 생성 모드

텍스트 기반 비디오 생성: 텍스트 설명에 따라 내용에 맞는 비디오 생성
이미지 기반 비디오 생성: 정적 이미지를 동적 효과가 있는 비디오로 변환
운동 강도 조절: Motion Score 매개변수(1-7점)를 통해 비디오 내 운동 강도를 조절

운동 점수는 왼쪽에서 오른쪽으로 각각 1점, 4점, 7점입니다.

효율적인 추론

모델은 고급 GPU(예: H100/H800)에서 효율적으로 실행됩니다:

256×256 해상도 비디오 생성: 단일 GPU에서 약 60초 소요
768×768 해상도 비디오 생성: 8 GPU 병렬로 약 4.5분 내에 완료

다운로드 및 사용

모델은 다음 플랫폼에서 다운로드할 수 있습니다:

향후 발전

hpcaitech 팀은 Open-Sora가 앞으로도 계속 발전할 것이라고 밝혔습니다:

4K 해상도 및 1분 이상의 긴 비디오 생성 지원
다중 모달 능력 탐색(오디오 동기화 생성, 크로스 모달 편집)
훈련 및 추론 비용 추가 절감

이 성과는 비디오 콘텐츠 제작의 장벽을 크게 낮추고 AI 비디오 도구의 더 넓은 분야에서의 적용을 촉진할 것으로 기대됩니다.