DomainShuttle: HKUST publica en código abierto un modelo de video guiado por sujeto de 14B basado en Wan2.2

news

El C4G Lab de HKUST lanza DomainShuttle, un modelo de generación de video guiado por sujeto de dominio abierto con licencia Apache-2.0, construido sobre Wan2.2-T2V-14B. Incluye Domain-MoT, Video-Reference DualRoPE y Cross-Pair Consistent Loss para fidelidad intradominio flexible y transferencia de estilo transdominio.

El 23 de junio de 2026, el C4G Lab de la Universidad de Ciencia y Tecnología de Hong Kong (HKUST) lanzó DomainShuttle, un método de generación de video texto a video guiado por sujeto de dominio abierto bajo la licencia Apache 2.0. El modelo está construido sobre Wan2.2-T2V-A14B e introduce una arquitectura novedosa para la personalización flexible del sujeto tanto en escenarios intradominio como transdominio.

TL;DR DomainShuttle te permite transportar cualquier sujeto a través de dominios: mantenerlo en su estilo original (intradominio) o transformarlo en nuevos estilos, semánticas y entornos (transdominio), preservando al mismo tiempo la identidad intrínseca del sujeto.

Qué Hace Diferente a DomainShuttle

Los métodos existentes de video guiado por sujeto destacan en la fidelidad intradominio, pero tienen dificultades con la editabilidad transdominio: cambiar el estilo de un personaje, posarlo en un nuevo entorno o aplicar transformaciones semánticas manteniendo la identidad intacta. DomainShuttle está diseñado desde cero para manejar ambos.

El método introduce tres contribuciones técnicas:

1. Domain-MoT (Mixture-of-Transformers)

Desacopla las características del video y las características de la imagen de referencia a través de vías separadas en el transformador. Un módulo AdaLN (Normalización Adaptativa de Capas) con conciencia de dominio permite un modelado específico del dominio de las imágenes de referencia, permitiendo que el modelo distinga entre lo que es intrínseco al sujeto y lo que pertenece al dominio circundante (estilo, iluminación, fondo).

2. Video-Reference DualRoPE

Coloca los tokens de la imagen de referencia y los tokens de generación de video en espacios RoPE (Embedding de Posición Rotatoria) separados. Esto permite un modelado espacial preciso a nivel de sujeto; el modelo trata al sujeto de referencia como un ancla y lo mapea en el sistema de coordenadas del video sin confusión posicional.

3. Cross-Pair Consistent Loss

Un novedoso objetivo de entrenamiento que extrae características intrínsecas del sujeto no afectadas por atributos irrelevantes (fondo, pose, iluminación, ángulo de cámara). Al imponer consistencia entre diferentes variaciones del mismo sujeto guiadas por texto, el modelo aprende qué hace al sujeto en sí mismo, no el contexto que lo rodea.

Arquitectura y Disponibilidad

DomainShuttle es un modelo de 14B parámetros construido sobre el backbone T2V de Wan2.2. Ejecuta inferencia a 480p y 720p en GPUs estándar.

RecursoEnlace
GitHubHKUST-C4G/DomainShuttle
Pesos en HuggingFaceCNcreator0331/DomainShuttle_weight
Informe técnicoarXiv 2606.26058
Página del proyectocn-makers.github.io/DomainShuttle
LicenciaApache 2.0

Inicio rápido

conda create -n DomainShuttle python=3.10
conda activate DomainShuttle
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
bash build_env_conda.sh

# Descargar pesos
hf download CNcreator0331/DomainShuttle_weight --local-dir ./models/Diffusion_Transformers/Wan2.2-DomainShuttle-A14B
hf download Wan-AI/Wan2.2-T2V-A14B --local-dir ./checkpoints/Wan2.2-T2V-A14B

# Inferencia
bash run_wan22_domainshuttle.sh

Los benchmarks de rendimiento del documento muestran que DomainShuttle logra mejoras significativas en métricas de consistencia del sujeto (CLIP, DINO, similitud facial) sobre métodos anteriores en diversos escenarios de dominio abierto, incluyendo interacción humano-objeto, generación multiobjeto y generación multipersona.

Enlaces

DomainShuttle: HKUST publica en código abierto un modelo de video guiado por sujeto de 14B basado en Wan2.2 | ComfyUI Wiki