VAST-AI y la Universidad de Tsinghua publican como código abierto UniRig: Un marco para el rigging automático de esqueletos para todos los modelos 3D
El equipo de investigación conjunto de VAST-AI (Tripo) y la Universidad de Tsinghua ha publicado recientemente como código abierto UniRig, un marco diseñado para revolucionar el rigging automático de esqueletos para modelos 3D. Esta tecnología marca un importante avance en el campo de los gráficos por computadora, utilizando las poderosas capacidades de los grandes modelos autorregresivos para generar estructuras de esqueleto y pesos de skinning de alta calidad para diversos modelos 3D, resolviendo uno de los aspectos más desafiantes de los flujos de trabajo de animación.
Resolviendo el cuello de botella principal en la creación de contenido 3D
Con la prosperidad del metaverso, el desarrollo de juegos y la producción de contenido digital, la demanda de modelos 3D está experimentando un crecimiento explosivo. Sin embargo, el proceso de convertir modelos estáticos en personajes animables mediante el rigging de esqueletos ha seguido siendo un importante cuello de botella, que requiere no solo tiempo sino también habilidades especializadas.
Los riggers profesionales de personajes necesitan dedicar horas o incluso días a crear jerarquías esqueléticas para modelos complejos, y luego ajustar meticulosamente los pesos para garantizar una deformación natural. Para los principiantes, este proceso tiene una curva de aprendizaje pronunciada, e incluso para los profesionales, sigue siendo uno de los aspectos más lentos del flujo de trabajo.
Las herramientas de rigging automático existentes se dividen principalmente en dos categorías:
- Métodos basados en plantillas: Si bien son relativamente confiables para personajes humanoides estándar, a menudo fallan cuando se enfrentan a formas novedosas (como criaturas con múltiples patas, estructuras mecánicas o criaturas fantásticas)
- Métodos sin plantilla: Aunque más flexibles, las topologías esqueléticas generadas a menudo no cumplen con las expectativas de los artistas, y la precisión del control es limitada
UniRig: Un modelo para riggear a todos
UniRig introduce un nuevo paradigma para el rigging automático de esqueletos aplicando los conceptos de los grandes modelos de lenguaje (LLM). El equipo de investigación trata las estructuras esqueléticas como un “lenguaje” especial, permitiendo que el modelo “comprenda” y “genere” la lógica esquelética inherente de varias criaturas y objetos.
Las innovaciones de UniRig incluyen:
1. Mecanismo innovador de tokenización de árboles esqueléticos
La tokenización de árboles esqueléticos es la innovación central de UniRig, que resuelve el desafío de codificar estructuras esqueléticas con relaciones jerárquicas complejas en secuencias lineales. Este esquema codifica de manera inteligente:
- Coordenadas de articulaciones: Representando posiciones espaciales en forma discretizada para precisión geométrica
- Estructura jerárquica: Definiendo claramente las relaciones padre-hijo para garantizar árboles esqueléticos válidos
- Información semántica: Identificando diferentes tipos de huesos mediante tokens especializados (como huesos principales, controladores IK, huesos físicos auxiliares, etc.)
Este diseño reduce la longitud de la secuencia aproximadamente un 30% en comparación con los métodos tradicionales, mejorando significativamente la eficiencia del modelo y la calidad de generación.
2. Arquitectura de dos etapas que garantiza resultados de alta calidad
UniRig emplea una arquitectura de dos etapas cuidadosamente diseñada:
-
Etapa de generación de esqueleto: Un Transformer basado en GPT genera articulaciones una por una mediante autorregresión, formando una jerarquía esquelética completa. Este proceso considera características geométricas tanto globales como locales, asegurando que el esqueleto coincida estrechamente con la forma del modelo 3D.
-
Etapa de predicción de pesos de skinning: A través de un innovador mecanismo de “Atención cruzada hueso-punto”, UniRig puede calcular con precisión cómo cada vértice del modelo es influenciado por los huesos circundantes, generando pesos de skinning naturales y suaves. El sistema también puede predecir parámetros físicos para huesos especializados (como coeficientes de resorte para huesos físicos), admitiendo efectos de animación avanzados.
Conjunto de datos Rig-XL: Impulsando la generalización a través de la diversidad
Para apoyar el entrenamiento de UniRig, el equipo de investigación construyó Rig-XL, el conjunto de datos de rigging de esqueletos más grande hasta la fecha, que contiene más de 14,000 modelos 3D riggeados diversos. Este conjunto de datos cubre:
- Personajes humanoides (estilos realistas y de dibujos animados)
- Cuadrúpedos (animales domésticos, vida silvestre, criaturas fantásticas)
- Aves y criaturas voladoras
- Insectos y artrópodos
- Estructuras mecánicas y objetos no orgánicos
- Personajes de estilo anime (incluidos huesos de resorte físicos)
Al entrenar con datos tan diversos, UniRig adquirió poderosas capacidades de generalización, capaces de manejar varias formas de modelos nunca vistas.
Ventajas de rendimiento en producción
En múltiples pruebas comparativas, UniRig superó significativamente a las soluciones comerciales y académicas existentes:
- Precisión de vinculación mejorada en un 215%: Las posiciones de los huesos y las estructuras jerárquicas coinciden mejor con las expectativas de los artistas profesionales
- Calidad de animación mejorada en un 194%: Los pesos generados producen deformaciones más naturales y fluidas durante la animación
- Capacidades de procesamiento ampliamente expandidas: Maneja con éxito formas que van desde simples hasta extremadamente complejas (como insectos con múltiples patas o personajes de fantasía con múltiples extremidades)
- Alta eficiencia: La mayoría de los modelos se procesan en 1-5 segundos, mucho menos que el tiempo requerido por los riggers profesionales
Integración potencial con el flujo de trabajo de ComfyUI
A medida que se aplican modelos de IA generativa como TripoSG y TripleSF en ComfyUI, se ha hecho posible generar modelos 3D de alta calidad. Sin embargo, los modelos generados típicamente carecen de estructuras esqueléticas, lo que limita su aplicación en animación.
UniRig tiene el potencial de integrarse perfectamente con el flujo de trabajo de generación 3D de ComfyUI, permitiendo un proceso de extremo a extremo desde el concepto creativo hasta el personaje animable:
- Generar modelos 3D usando indicaciones de texto o imagen
- Agregar automáticamente estructuras esqueléticas a través de UniRig
- Exportar a cualquier software o motor de juego que admita animación esquelética
Además, combinado con la tecnología HoloPart lanzada ayer, puede permitir la edición a nivel de componentes y la generación de esqueletos de modelos, brindando a los creadores una flexibilidad sin precedentes.
Estado actual del código abierto
VAST-AI ha comenzado a abrir gradualmente el código de los diversos componentes de UniRig:
- ✅ Ya en código abierto: Modelo de predicción de esqueletos (entrenado en Articulation-XL2.0)
- ⏳ Próximamente: Modelo de predicción de pesos de skinning
- ⏳ Próximamente: Conjuntos de datos Rig-XL y VRoid
- ⏳ Próximamente: Puntos de control completos del modelo UniRig entrenados en Rig-XL/VRoid
Retroalimentación de creadores y participación de la comunidad de código abierto
Los artistas 3D independientes que probaron UniRig tempranamente afirmaron que la tecnología “cambió significativamente el proceso creativo” y “abrió la puerta a la creación de animaciones para riggers no profesionales”. Un desarrollador de juegos comentó: “UniRig puede completar en segundos lo que antes llevaba horas, y la calidad es incluso mejor”.
VAST-AI invita a la comunidad de código abierto a participar en el desarrollo adicional de UniRig, especialmente en las siguientes áreas:
- Ajuste fino especializado para tipos específicos de modelos
- Integración de plugins con software de creación 3D existente
- Modelos ligeros optimizados para dispositivos más pequeños
Enlaces relacionados
VAST-AI ha estado abriendo frecuentemente el código de múltiples proyectos relacionados con la creación 3D recientemente, incluido UniRig presentado hoy, HoloPart, TripleSF, así como MIDI y MV-Adapter para la generación de extremo a extremo de escenas compuestas tridimensionales a partir de imágenes únicas, liderando continuamente la dirección de la tecnología de generación 3D y proporcionando herramientas más potentes para la comunidad creativa.