DomainShuttle:香港科技大学开源基于Wan2.2的14B主体驱动文生视频模型
香港科技大学C4G实验室发布DomainShuttle,一个基于Wan2.2-T2V-14B构建的Apache-2.0开放域主体驱动视频生成模型。该模型采用Domain-MoT、视频-参考DualRoPE和跨对一致性损失,实现了灵活的域内保真度和跨域风格迁移。
2026年6月23日,香港科技大学(HKUST)C4G实验室发布了DomainShuttle——一种基于Apache 2.0许可证的开放域主体驱动文生视频方法。该模型构建在Wan2.2-T2V-A14B之上,并引入了一种新颖架构,可在域内和跨域场景中实现灵活的主体个性化定制。
TL;DR DomainShuttle让您能够在不同域之间穿梭任意主体——保持其原始风格(域内)或将其变换为新的风格、语义和环境(跨域)——同时保留主体的固有身份。
DomainShuttle的独特之处
现有的主体驱动视频方法擅长域内保真度,但在跨域可编辑性方面存在困难——比如改变角色的风格、将其置于新环境中,或在保持身份的同时应用语义变换。DomainShuttle从零开始设计,兼顾两者。
该方法贡献了三大技术:
1. Domain-MoT(混合专家变换器)
通过分离的变换器通路解耦视频特征和参考图像特征。一个域感知AdaLN(自适应层归一化)模块实现了参考图像的域特定建模,让模型能够区分哪些是主体固有的,哪些属于周围域(风格、光照、背景)。
2. 视频-参考DualRoPE
将参考图像令牌和视频生成令牌置于独立的RoPE(旋转位置嵌入)空间中。这使得模型能够进行精确的主体级空间建模——将参考主体视为锚点,并映射到视频的坐标系中,而不会产生位置混淆。
3. 跨对一致性损失
一种新颖的训练目标,用于提取不受无关属性(背景、姿势、光照、相机角度)影响的固有主体特征。通过对同一主体的不同提示驱动变体之间强制执行一致性,模型学习到什么是主体本身,而不是其上下文。
架构与可用性
DomainShuttle是一个14B参数模型,构建在Wan2.2的T2V骨干网络上。它可以在标准GPU上运行480p和720p的推理。
| 资源 | 链接 |
|---|---|
| GitHub | HKUST-C4G/DomainShuttle |
| HuggingFace 权重 | CNcreator0331/DomainShuttle_weight |
| 技术报告 | arXiv 2606.26058 |
| 项目页面 | cn-makers.github.io/DomainShuttle |
| 许可证 | Apache 2.0 |
快速开始
conda create -n DomainShuttle python=3.10
conda activate DomainShuttle
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
bash build_env_conda.sh
# 下载权重
hf download CNcreator0331/DomainShuttle_weight --local-dir ./models/Diffusion_Transformers/Wan2.2-DomainShuttle-A14B
hf download Wan-AI/Wan2.2-T2V-A14B --local-dir ./checkpoints/Wan2.2-T2V-A14B
# 推理
bash run_wan22_domainshuttle.sh论文中的性能基准测试表明,DomainShuttle在多种开放域场景(包括人-物交互、多物体生成、多人生成)中,比之前的方法在主体一致性指标(CLIP、DINO、人脸相似度)上取得了显著改进。
链接
- GitHub仓库
- arXiv论文
- HuggingFace模型
- 项目页面
- 许可证:Apache 2.0