DomainShuttle: HKUST публикует с открытым исходным кодом 14B модель управляемого субъектом создания видео из текста на базе Wan2.2

23 июня 2026 года лаборатория C4G при Гонконгском университете науки и технологии (HKUST) выпустила DomainShuttle — метод генерации видео из текста с открытой предметной областью под лицензией Apache 2.0. Модель построена на базе Wan2.2-T2V-A14B и предлагает новую архитектуру для гибкой персонализации субъекта как в пределах домена, так и между доменами.

TL;DR DomainShuttle позволяет перемещать любой субъект между доменами — сохраняя его в исходном стиле (внутри домена) или трансформируя в новые стили, семантику и окружение (между доменами) — при этом сохраняя внутреннюю идентичность субъекта.

Чем отличается DomainShuttle

Существующие методы управляемого субъектом видео отлично справляются с достоверностью в пределах домена, но испытывают трудности с редактируемостью между доменами — изменением стиля персонажа, размещением его в новой среде или применением семантических преобразований с сохранением идентичности. DomainShuttle изначально спроектирован для решения обеих задач.

Метод включает три технических вклада:

1. Domain-MoT (Mixture-of-Transformers)

Разделяет признаки видео и признаки эталонного изображения через отдельные пути трансформеров. Модуль доменно-зависимой AdaLN (адаптивной нормализации слоя) позволяет моделировать эталонные изображения с учётом домена, давая модели возможность различать, что присуще субъекту, а что относится к окружающему домену (стиль, освещение, фон).

2. Video-Reference DualRoPE

Помещает токены эталонного изображения и токены генерации видео в отдельные пространства RoPE (вращательное позиционное кодирование). Это обеспечивает точное пространственное моделирование на уровне субъекта — модель использует эталонный субъект как якорь и отображает его в координатную систему видео без путаницы в позициях.

3. Cross-Pair Consistent Loss

Новый обучающий критерий, который извлекает внутренние признаки субъекта, не подверженные влиянию нерелевантных атрибутов (фон, поза, освещение, угол камеры). За счёт наложения согласованности между различными вариантами одного и того же субъекта, заданными промптами, модель учится тому, что составляет сам субъект, а не его контекст.

Архитектура и доступность

DomainShuttle — это модель с 14 миллиардами параметров, построенная на основе T2V архитектуры Wan2.2. Она выполняет инференс в разрешениях 480p и 720p на стандартных GPU.

Ресурс	Ссылка
GitHub	HKUST-C4G/DomainShuttle
Веса на HuggingFace	CNcreator0331/DomainShuttle_weight
Технический отчёт	arXiv 2606.26058
Страница проекта	cn-makers.github.io/DomainShuttle
Лицензия	Apache 2.0

Быстрый старт

conda create -n DomainShuttle python=3.10
conda activate DomainShuttle
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
bash build_env_conda.sh

# Download weights
hf download CNcreator0331/DomainShuttle_weight --local-dir ./models/Diffusion_Transformers/Wan2.2-DomainShuttle-A14B
hf download Wan-AI/Wan2.2-T2V-A14B --local-dir ./checkpoints/Wan2.2-T2V-A14B

# Inference
bash run_wan22_domainshuttle.sh

Бенчмарки из статьи показывают, что DomainShuttle достигает значительных улучшений в метриках согласованности субъекта (CLIP, DINO, сходство лиц) по сравнению с предыдущими методами в различных сценариях с открытой предметной областью, включая взаимодействие человека с объектом, генерацию нескольких объектов и генерацию нескольких людей.