DomainShuttle：HKUST、Wan2.2ベースの140億パラメータオープンドメイン被写体駆動型テキストから動画へのモデルをオープンソース化

2026年6月23日、香港科技大学（HKUST）C4G研究室は、Apache 2.0ライセンスの下で、オープンドメイン被写体駆動型テキストから動画への生成手法DomainShuttleを公開しました。本モデルはWan2.2-T2V-A14Bをベースとしており、ドメイン内およびクロスドメインの両方のシナリオで柔軟な被写体パーソナライゼーションを実現する新しいアーキテクチャを導入しています。

要約 DomainShutterを使えば、あらゆる被写体をドメイン間で自在に行き来できます。オリジナルのスタイルを維持したまま（ドメイン内）でも、新しいスタイル、意味、環境に変換（クロスドメイン）しても、被写体本来のアイデンティティはそのまま保たれます。

DomainShuttleの特長

既存の被写体駆動型動画手法は、ドメイン内での忠実性には優れていますが、キャラクターのスタイル変更、新しい環境でのポージング、意味変換など、アイデンティティを保ちつつ編集するクロスドメインの編集性には課題がありました。DomainShuttleは、両方のケースを扱えるようにゼロから設計されています。

本手法は以下の3つの技術的貢献を導入しています。

1. Domain-MoT（Mixture-of-Transformers）

ビデオ特徴と参照画像特徴を別々のTransformer経路で分離します。ドメイン認識型AdaLN（Adaptive Layer Normalization）モジュールにより、参照画像のドメイン固有のモデリングが可能になり、被写体に固有のものと周囲のドメイン（スタイル、照明、背景）に属するものをモデルが区別できるようになります。

2. Video-Reference DualRoPE

参照画像トークンと動画生成トークンを別々のRoPE（Rotary Position Embedding）空間に配置します。これにより、被写体レベルの正確な空間モデリングが可能になり、モデルは参照被写体をアンカーとして扱い、位置の混乱なく動画の座標系にマッピングします。

3. Cross-Pair Consistent Loss

無関係な属性（背景、ポーズ、照明、カメラアングル）の影響を受けない被写体固有の特徴を抽出する新しいトレーニング目的関数です。同じ被写体に対する異なるプロンプト駆動のバリエーション間で一貫性を強制することで、モデルは被写体そのものを構成する要素（周囲のコンテキストではなく）を学習します。

アーキテクチャと入手方法

DomainShuttleは、Wan2.2のT2Vバックボーンをベースとした140億パラメータのモデルです。480pおよび720pの推論を標準的なGPUで実行できます。

リソース	リンク
GitHub	HKUST-C4G/DomainShuttle
HuggingFace ウェイト	CNcreator0331/DomainShuttle_weight
テクニカルレポート	arXiv 2606.26058
プロジェクトページ	cn-makers.github.io/DomainShuttle
ライセンス	Apache 2.0

クイックスタート

conda create -n DomainShuttle python=3.10
conda activate DomainShuttle
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
bash build_env_conda.sh

# ウェイトのダウンロード
hf download CNcreator0331/DomainShuttle_weight --local-dir ./models/Diffusion_Transformers/Wan2.2-DomainShuttle-A14B
hf download Wan-AI/Wan2.2-T2V-A14B --local-dir ./checkpoints/Wan2.2-T2V-A14B

# 推論
bash run_wan22_domainshuttle.sh

論文の性能ベンチマークによると、DomainShuttleは、人間と物体の相互作用、複数物体生成、複数人物生成など、多様なオープンドメインシナリオにおいて、被写体一貫性指標（CLIP、DINO、顔類似度）で従来手法を大幅に上回る改善を示しています。