DomainShuttle: HKUST, Wan2.2 기반 14B 규모의 오픈 도메인 주제 기반 텍스트 비디오 생성 모델을 오픈소스로 공개

2026년 6월 23일, 홍콩과학기술대학교(HKUST) C4G 연구실이 Apache 2.0 라이선스로 DomainShuttle이라는 오픈 도메인 주제 기반 텍스트 비디오 생성 방법을 공개했습니다. 이 모델은 Wan2.2-T2V-A14B를 기반으로 하며, 도메인 내 및 도메인 간 시나리오 모두에서 유연한 주제 개인화를 가능하게 하는 새로운 아키텍처를 도입했습니다.

TL;DR DomainShuttle을 사용하면 어떤 주제든 도메인 간에 자유롭게 이동시킬 수 있습니다. 즉, 원래 스타일(도메인 내)을 유지하거나 새로운 스타일, 의미, 환경(도메인 간)으로 변환하면서 주제 고유의 정체성을 보존합니다.

DomainShuttle의 차별점

기존의 주제 기반 비디오 생성 방법은 도메인 내 충실도에는 뛰어나지만, 도메인 간 편집성(예: 캐릭터 스타일 변경, 새로운 환경에 배치, 정체성을 유지하면서 의미 변환 적용)에 어려움을 겪었습니다. DomainShuttle는 처음부터 두 가지를 모두 처리할 수 있도록 설계되었습니다.

이 방법은 세 가지 기술적 기여를 도입합니다.

1. Domain-MoT (Mixture-of-Transformers)

별도의 트랜스포머 경로를 통해 비디오 특징과 참조 이미지 특징을 분리합니다. 도메인 인식 AdaLN(Adaptive Layer Normalization) 모듈을 통해 참조 이미지의 도메인별 모델링이 가능해져, 모델이 주제 고유의 것과 주변 도메인(스타일, 조명, 배경)에 속한 것을 구별할 수 있습니다.

2. Video-Reference DualRoPE

참조 이미지 토큰과 비디오 생성 토큰을 별도의 RoPE(Rotary Position Embedding) 공간에 배치합니다. 이를 통해 정밀한 주제 수준의 공간 모델링이 가능해집니다. 모델은 참조 주제를 앵커로 삼아 위치 혼란 없이 비디오 좌표계에 매핑합니다.

3. Cross-Pair Consistent Loss

관련 없는 속성(배경, 포즈, 조명, 카메라 각도)의 영향을 받지 않는 고유한 주제 특징을 추출하는 새로운 학습 목표입니다. 동일한 주제에 대해 프롬프트 기반으로 다양한 변형을 생성할 때 일관성을 강제함으로써, 모델은 주제 자체를 구성하는 요소를 배우며, 그 주변 맥락은 배웁니다.

아키텍처 및 이용 가능성

DomainShuttle은 Wan2.2의 T2V 백본을 기반으로 한 140억 파라미터(14B) 모델입니다. 표준 GPU에서 480p 및 720p 추론을 실행할 수 있습니다.

리소스	링크
GitHub	HKUST-C4G/DomainShuttle
HuggingFace 가중치	CNcreator0331/DomainShuttle_weight
기술 보고서	arXiv 2606.26058
프로젝트 페이지	cn-makers.github.io/DomainShuttle
라이선스	Apache 2.0

빠른 시작

conda create -n DomainShuttle python=3.10
conda activate DomainShuttle
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
bash build_env_conda.sh

# 가중치 다운로드
hf download CNcreator0331/DomainShuttle_weight --local-dir ./models/Diffusion_Transformers/Wan2.2-DomainShuttle-A14B
hf download Wan-AI/Wan2.2-T2V-A14B --local-dir ./checkpoints/Wan2.2-T2V-A14B

# 추론
bash run_wan22_domainshuttle.sh

논문의 성능 벤치마크에 따르면 DomainShuttle은 다양한 오픈 도메인 시나리오(사람-객체 상호작용, 다중 객체 생성, 다중 인물 생성 포함)에서 기존 방법보다 주제 일관성 지표(CLIP, DINO, 얼굴 유사도)에서 상당한 개선을 보였습니다.