DomainShuttle : HKUST publie en open source un modèle 14B de texte vers vidéo orienté sujet basé sur Wan2.2
Le C4G de HKUST publie DomainShuttle, un modèle de génération vidéo orienté sujet en domaine ouvert sous licence Apache-2.0, construit sur Wan2.2-T2V-14B. Il intègre Domain-MoT, DualRoPe pour la référence vidéo et une perte de cohérence cross-pair pour une fidélité intra-domaine flexible et un transfert de style inter-domaines.
Le 23 juin 2026, le C4G Lab de l'Université des sciences et technologies de Hong Kong (HKUST) a publié DomainShuttle, une méthode de génération vidéo orientée sujet en domaine ouvert sous licence Apache 2.0. Le modèle est construit sur Wan2.2-T2V-A14B et introduit une architecture novatrice pour une personnalisation flexible du sujet dans des scénarios intra-domaine et inter-domaines.
TL;DR DomainShuttle vous permet de faire naviguer n'importe quel sujet entre les domaines : gardez-le dans son style d'origine (intra-domaine) ou transformez-le en de nouveaux styles, sémantiques et environnements (inter-domaines), tout en préservant l'identité intrinsèque du sujet.
Ce qui rend DomainShuttle différent
Les méthodes vidéo orientées sujet existantes excellent en fidélité intra-domaine mais peinent en matière d'édition inter-domaines : changer le style d'un personnage, le placer dans un nouvel environnement ou appliquer des transformations sémantiques tout en conservant son identité. DomainShuttle est conçu dès le départ pour gérer les deux.
La méthode introduit trois contributions techniques :
1. Domain-MoT (Mixture-of-Transformers)
Découple les caractéristiques vidéo et les caractéristiques de l'image de référence via des voies de transformateur distinctes. Un module AdaLN (Adaptive Layer Normalization) sensible au domaine permet une modélisation spécifique au domaine des images de référence, permettant au modèle de distinguer ce qui est intrinsèque au sujet de ce qui appartient au domaine environnant (style, éclairage, arrière-plan).
2. Video-Reference DualRoPE
Place les jetons de l'image de référence et les jetons de génération vidéo dans des espaces RoPE (Rotary Position Embedding) séparés. Cela permet une modélisation spatiale précise au niveau du sujet : le modèle traite le sujet de référence comme une ancre et le mappe dans le système de coordonnées vidéo sans confusion de position.
3. Cross-Pair Consistent Loss
Un objectif d'apprentissage novateur qui extrait les caractéristiques intrinsèques du sujet non affectées par les attributs non pertinents (arrière-plan, pose, éclairage, angle de caméra). En forçant la cohérence entre différentes variations du même sujet guidées par des prompts, le modèle apprend ce qui constitue le sujet lui-même, et non le contexte qui l'entoure.
Architecture et disponibilité
DomainShuttle est un modèle de 14 milliards de paramètres construit sur le backbone T2V de Wan2.2. Il permet l'inférence en 480p et 720p sur des GPU standard.
| Ressource | Lien |
|---|---|
| GitHub | HKUST-C4G/DomainShuttle |
| Poids HuggingFace | CNcreator0331/DomainShuttle_weight |
| Rapport technique | arXiv 2606.26058 |
| Page du projet | cn-makers.github.io/DomainShuttle |
| Licence | Apache 2.0 |
Démarrage rapide
conda create -n DomainShuttle python=3.10
conda activate DomainShuttle
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
bash build_env_conda.sh
# Download weights
hf download CNcreator0331/DomainShuttle_weight --local-dir ./models/Diffusion_Transformers/Wan2.2-DomainShuttle-A14B
hf download Wan-AI/Wan2.2-T2V-A14B --local-dir ./checkpoints/Wan2.2-T2V-A14B
# Inference
bash run_wan22_domainshuttle.shLes benchmarks de performance de l'article montrent que DomainShuttle obtient des améliorations significatives dans les métriques de cohérence du sujet (CLIP, DINO, similarité faciale) par rapport aux méthodes antérieures dans divers scénarios en domaine ouvert, incluant l'interaction humain-objet, la génération multi-objets et la génération multi-personnes.
Liens
- Dépôt GitHub
- Article arXiv
- Modèle HuggingFace
- Page du projet
- Licence : Apache 2.0