DomainShuttle：香港科技大学开源基于Wan2.2的14B主体驱动文生视频模型

2026年6月23日，香港科技大学（HKUST）C4G实验室发布了DomainShuttle——一种基于Apache 2.0许可证的开放域主体驱动文生视频方法。该模型构建在Wan2.2-T2V-A14B之上，并引入了一种新颖架构，可在域内和跨域场景中实现灵活的主体个性化定制。

TL;DR DomainShuttle让您能够在不同域之间穿梭任意主体——保持其原始风格（域内）或将其变换为新的风格、语义和环境（跨域）——同时保留主体的固有身份。

DomainShuttle的独特之处

现有的主体驱动视频方法擅长域内保真度，但在跨域可编辑性方面存在困难——比如改变角色的风格、将其置于新环境中，或在保持身份的同时应用语义变换。DomainShuttle从零开始设计，兼顾两者。

该方法贡献了三大技术：

1. Domain-MoT（混合专家变换器）

通过分离的变换器通路解耦视频特征和参考图像特征。一个域感知AdaLN（自适应层归一化）模块实现了参考图像的域特定建模，让模型能够区分哪些是主体固有的，哪些属于周围域（风格、光照、背景）。

2. 视频-参考DualRoPE

将参考图像令牌和视频生成令牌置于独立的RoPE（旋转位置嵌入）空间中。这使得模型能够进行精确的主体级空间建模——将参考主体视为锚点，并映射到视频的坐标系中，而不会产生位置混淆。

3. 跨对一致性损失

一种新颖的训练目标，用于提取不受无关属性（背景、姿势、光照、相机角度）影响的固有主体特征。通过对同一主体的不同提示驱动变体之间强制执行一致性，模型学习到什么是主体本身，而不是其上下文。

架构与可用性

DomainShuttle是一个14B参数模型，构建在Wan2.2的T2V骨干网络上。它可以在标准GPU上运行480p和720p的推理。

资源	链接
GitHub	HKUST-C4G/DomainShuttle
HuggingFace 权重	CNcreator0331/DomainShuttle_weight
技术报告	arXiv 2606.26058
项目页面	cn-makers.github.io/DomainShuttle
许可证	Apache 2.0

快速开始

conda create -n DomainShuttle python=3.10
conda activate DomainShuttle
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
bash build_env_conda.sh

# 下载权重
hf download CNcreator0331/DomainShuttle_weight --local-dir ./models/Diffusion_Transformers/Wan2.2-DomainShuttle-A14B
hf download Wan-AI/Wan2.2-T2V-A14B --local-dir ./checkpoints/Wan2.2-T2V-A14B

# 推理
bash run_wan22_domainshuttle.sh

论文中的性能基准测试表明，DomainShuttle在多种开放域场景（包括人-物交互、多物体生成、多人生成）中，比之前的方法在主体一致性指标（CLIP、DINO、人脸相似度）上取得了显著改进。