OpenMOSS, MOVA 출시 - 오픈소스 동영상·오디오 동기화 생성 모델

2026년 1월 29일, 상하이 창지학원 OpenMOSS 팀은 모스지능(MOSI)과 공동으로 엔드투엔드 동영상·오디오 생성 모델 **MOVA (MOSS Video and Audio)**를 정식으로 출시했습니다. 이 모델은 단일 추론에서 동영상과 오디오를 동기화하여 생성하며, 캐스케이드 파이프라인의 오류 누적 문제를 피하고 립싱크와 환경 사운드 효과에서 선진적인 성능을 달성했습니다.

모델 포지셔닝

MOVA는 오픈소스 동영상 생성 분야의 오디오 부재 문제를 해결하기 위해 설계된 기반 모델입니다. 엔드투엔드 모달리티 융합을 통해 모델은 단일 추론 과정에서 고선명 동영상과 동기화된 오디오를 동시에 생성하여 완벽한 정렬을 보장합니다.

기술 아키텍처

비대칭 듀얼 타워 아키텍처

MOVA는 비대칭 듀얼 타워 아키텍처를 채택하며, 양방향 크로스 어텐션 메커니즘을 통해 사전 훈련된 동영상 타워와 오디오 타워를 융합합니다. 이 설계는 모델이 생성 과정에서 동영상과 오디오의 긴밀한 동기화를 유지할 수 있게 합니다.

모델 버전

프로젝트는 두 가지 해상도 버전을 오픈소스로 공개했습니다:

MOVA-360p: 빠른 추론과 리소스 제한 환경에 적합
MOVA-720p: 더 높은 해상도의 동영상 생성 제공

두 버전 모두 최대 8초의 동영상-오디오 콘텐츠 생성을 지원합니다.

핵심 기능

네이티브 바이모달 생성

MOVA는 단일 추론 패스에서 고선명 동영상과 동기화된 오디오를 생성하며, 전통적인 캐스케이드 방식의 오류 누적과 동기화 문제를 피합니다.

정확한 립싱크

모델은 다국어 립싱크에서 뛰어난 성능을 보입니다. Verse-Bench Set3 평가에서:

이중 CFG 활성화 시, LSE-D 점수 7.094
LSE-C 점수 7.452

환경 인식 사운드 효과

모델은 동영상 콘텐츠에 기반하여 해당 환경 사운드 효과를 생성할 수 있습니다:

물리적 상호작용 소리(차량 엔진 소리, 바람 소리 등)
환경 앰비언트 소리(거리 잔향, 장비 마찰 소리 등)
공간감과 질감의 사운드 피드백

성능

Verse-Bench 평가

모델은 Verse-Bench 벤치마크에서 포괄적으로 평가되었습니다:

오디오-비디오 정렬: 모든 서브셋에서 평가
립싱크: Set3에서 평가
음성 품질: Set3에서 평가
ASR 정확도: 다중 화자 서브셋에서 평가

인간 평가

프로젝트는 MOVA와 기존 오픈소스 모델을 비교하는 Elo 점수와 승율 데이터를 제공합니다.

추론 성능

8초 360p 동영상 생성 예시에서, 다양한 오프로드 전략下的 성능 벤치마크:

VRAM 사용량은 오프로드 전략에 따라 변화
호스트 RAM 사용량
하드웨어 스텝 시간

실제 성능은 하드웨어 구성에 따라 달라질 수 있습니다.

LoRA 파인튜닝 지원

MOVA는 완전한 LoRA 파인튜닝 스크립트를 제공하며, 다양한 훈련 모드를 지원합니다:

훈련 구성(360p, 8초 동영상)

저리소스 LoRA: VRAM 요구사항 감소
가속 LoRA: 훈련 속도 향상
가속 + FSDP LoRA: 분산 훈련 지원

각 모드의 피크 사용 데이터에는 VRAM/GPU, 호스트 RAM, 스텝 시간이 포함됩니다.

응용 시나리오

MOVA는 다음 시나리오에 적합합니다:

동영상-오디오 콘텐츠 생성: 동기화된 오디오가 있는 동영상 콘텐츠 생성
립싱크: 동영상에 정확한 음성 동기화 추가
사운드 효과 생성: 동영상용 환경 인식 사운드 효과 생성
다국어 더빙: 다국어 립싱크 생성 지원

완전 오픈소스

MOVA는 Apache-2.0 오픈소스 라이선스를 사용하며, 다음을 완전히 공개합니다:

모델 가중치: 360p와 720p 두 버전
추론 코드: 완전한 추론 구현
훈련 파이프라인: 엔드투엔드 훈련 프로세스
LoRA 파인튜닝 스크립트: 사용자 정의 파인튜닝 지원

이 풀스택 오픈소스 전략은 커뮤니티가 협력하여 모델을 개선하고 동영상-오디오 생성 기술을 발전시킬 수 있게 합니다.

기술적 의의

Sora 2와 Veo 3과 같은 최고 기술들이 클로즈드 소스로 향하는 배경에서, MOVA의 오픈소스 출시는 오픈소스 동영상-오디오 생성 기반 모델의 공백을 채웁니다. 완전한 모델 가중치와 훈련 코드를 제공함으로써, MOVA는 커뮤니티에 동영상-오디오 생성 능력을 개선하고 사용자 정의할 수 있는 기반을 제공합니다.