DomainShuttle: HKUST публикует с открытым исходным кодом 14B модель управляемого субъектом создания видео из текста на базе Wan2.2
Лаборатория C4G HKUST выпускает DomainShuttle — модель генерации видео с открытой предметной областью под лицензией Apache 2.0, построенную на базе Wan2.2-T2V-14B. Она включает Domain-MoT, Video-Reference DualRoPE и Cross-Pair Consistent Loss для гибкого сохранения достоверности в пределах домена и переноса стиля между доменами.
23 июня 2026 года лаборатория C4G при Гонконгском университете науки и технологии (HKUST) выпустила DomainShuttle — метод генерации видео из текста с открытой предметной областью под лицензией Apache 2.0. Модель построена на базе Wan2.2-T2V-A14B и предлагает новую архитектуру для гибкой персонализации субъекта как в пределах домена, так и между доменами.
TL;DR DomainShuttle позволяет перемещать любой субъект между доменами — сохраняя его в исходном стиле (внутри домена) или трансформируя в новые стили, семантику и окружение (между доменами) — при этом сохраняя внутреннюю идентичность субъекта.
Чем отличается DomainShuttle
Существующие методы управляемого субъектом видео отлично справляются с достоверностью в пределах домена, но испытывают трудности с редактируемостью между доменами — изменением стиля персонажа, размещением его в новой среде или применением семантических преобразований с сохранением идентичности. DomainShuttle изначально спроектирован для решения обеих задач.
Метод включает три технических вклада:
1. Domain-MoT (Mixture-of-Transformers)
Разделяет признаки видео и признаки эталонного изображения через отдельные пути трансформеров. Модуль доменно-зависимой AdaLN (адаптивной нормализации слоя) позволяет моделировать эталонные изображения с учётом домена, давая модели возможность различать, что присуще субъекту, а что относится к окружающему домену (стиль, освещение, фон).
2. Video-Reference DualRoPE
Помещает токены эталонного изображения и токены генерации видео в отдельные пространства RoPE (вращательное позиционное кодирование). Это обеспечивает точное пространственное моделирование на уровне субъекта — модель использует эталонный субъект как якорь и отображает его в координатную систему видео без путаницы в позициях.
3. Cross-Pair Consistent Loss
Новый обучающий критерий, который извлекает внутренние признаки субъекта, не подверженные влиянию нерелевантных атрибутов (фон, поза, освещение, угол камеры). За счёт наложения согласованности между различными вариантами одного и того же субъекта, заданными промптами, модель учится тому, что составляет сам субъект, а не его контекст.
Архитектура и доступность
DomainShuttle — это модель с 14 миллиардами параметров, построенная на основе T2V архитектуры Wan2.2. Она выполняет инференс в разрешениях 480p и 720p на стандартных GPU.
| Ресурс | Ссылка |
|---|---|
| GitHub | HKUST-C4G/DomainShuttle |
| Веса на HuggingFace | CNcreator0331/DomainShuttle_weight |
| Технический отчёт | arXiv 2606.26058 |
| Страница проекта | cn-makers.github.io/DomainShuttle |
| Лицензия | Apache 2.0 |
Быстрый старт
conda create -n DomainShuttle python=3.10
conda activate DomainShuttle
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
bash build_env_conda.sh
# Download weights
hf download CNcreator0331/DomainShuttle_weight --local-dir ./models/Diffusion_Transformers/Wan2.2-DomainShuttle-A14B
hf download Wan-AI/Wan2.2-T2V-A14B --local-dir ./checkpoints/Wan2.2-T2V-A14B
# Inference
bash run_wan22_domainshuttle.shБенчмарки из статьи показывают, что DomainShuttle достигает значительных улучшений в метриках согласованности субъекта (CLIP, DINO, сходство лиц) по сравнению с предыдущими методами в различных сценариях с открытой предметной областью, включая взаимодействие человека с объектом, генерацию нескольких объектов и генерацию нескольких людей.
Ссылки
- Репозиторий GitHub
- Статья на arXiv
- Модель на HuggingFace
- Страница проекта
- Лицензия: Apache 2.0