DomainShuttle:香港科技大学开源基于Wan2.2的14B主体驱动文生视频模型

news

香港科技大学C4G实验室发布DomainShuttle,一个基于Wan2.2-T2V-14B构建的Apache-2.0开放域主体驱动视频生成模型。该模型采用Domain-MoT、视频-参考DualRoPE和跨对一致性损失,实现了灵活的域内保真度和跨域风格迁移。

2026年6月23日,香港科技大学(HKUST)C4G实验室发布了DomainShuttle——一种基于Apache 2.0许可证的开放域主体驱动文生视频方法。该模型构建在Wan2.2-T2V-A14B之上,并引入了一种新颖架构,可在域内和跨域场景中实现灵活的主体个性化定制。

TL;DR DomainShuttle让您能够在不同域之间穿梭任意主体——保持其原始风格(域内)或将其变换为新的风格、语义和环境(跨域)——同时保留主体的固有身份。

DomainShuttle的独特之处

现有的主体驱动视频方法擅长域内保真度,但在跨域可编辑性方面存在困难——比如改变角色的风格、将其置于新环境中,或在保持身份的同时应用语义变换。DomainShuttle从零开始设计,兼顾两者。

该方法贡献了三大技术:

1. Domain-MoT(混合专家变换器)

通过分离的变换器通路解耦视频特征和参考图像特征。一个域感知AdaLN(自适应层归一化)模块实现了参考图像的域特定建模,让模型能够区分哪些是主体固有的,哪些属于周围域(风格、光照、背景)。

2. 视频-参考DualRoPE

将参考图像令牌和视频生成令牌置于独立的RoPE(旋转位置嵌入)空间中。这使得模型能够进行精确的主体级空间建模——将参考主体视为锚点,并映射到视频的坐标系中,而不会产生位置混淆。

3. 跨对一致性损失

一种新颖的训练目标,用于提取不受无关属性(背景、姿势、光照、相机角度)影响的固有主体特征。通过对同一主体的不同提示驱动变体之间强制执行一致性,模型学习到什么是主体本身,而不是其上下文。

架构与可用性

DomainShuttle是一个14B参数模型,构建在Wan2.2的T2V骨干网络上。它可以在标准GPU上运行480p和720p的推理。

资源链接
GitHubHKUST-C4G/DomainShuttle
HuggingFace 权重CNcreator0331/DomainShuttle_weight
技术报告arXiv 2606.26058
项目页面cn-makers.github.io/DomainShuttle
许可证Apache 2.0

快速开始

conda create -n DomainShuttle python=3.10
conda activate DomainShuttle
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
bash build_env_conda.sh

# 下载权重
hf download CNcreator0331/DomainShuttle_weight --local-dir ./models/Diffusion_Transformers/Wan2.2-DomainShuttle-A14B
hf download Wan-AI/Wan2.2-T2V-A14B --local-dir ./checkpoints/Wan2.2-T2V-A14B

# 推理
bash run_wan22_domainshuttle.sh

论文中的性能基准测试表明,DomainShuttle在多种开放域场景(包括人-物交互、多物体生成、多人生成)中,比之前的方法在主体一致性指标(CLIP、DINO、人脸相似度)上取得了显著改进。

链接

DomainShuttle:香港科技大学开源基于Wan2.2的14B主体驱动文生视频模型 | ComfyUI Wiki