Microsoft Lanza TRELLIS.2 - Modelo de Generación de Imagen a 3D con 4 Mil Millones de Parámetros
18/12/2025
Microsoft Lanza TRELLIS.2 - Modelo de Generación de Imagen a 3D con 4 Mil Millones de Parámetros
Microsoft lanzó recientemente TRELLIS.2, un gran modelo generativo 3D con 4 mil millones de parámetros, diseñado específicamente para tareas de generación de imagen a 3D de alta fidelidad. El modelo emplea una novedosa estructura de vóxeles dispersos llamada O-Voxel, capaz de reconstruir y generar activos 3D con topologías complejas, características nítidas y materiales PBR completos.

Características Principales
Alta Calidad y Eficiencia
TRELLIS.2 utiliza tecnología Sparse 3D VAE con un submuestreo espacial de 16× para codificar activos 3D en un espacio latente compacto. El modelo puede generar activos de alta resolución completamente texturizados con velocidad impresionante:
- Resolución 512³: Aproximadamente 3 segundos (2s forma + 1s material)
- Resolución 1024³: Aproximadamente 17 segundos (10s forma + 7s material)
- Resolución 1536³: Aproximadamente 60 segundos (35s forma + 25s material)
Estos resultados de prueba se basan en GPU NVIDIA H100.
Soporte para Topologías Complejas
El método de representación O-Voxel rompe las limitaciones de los campos de isosuperficie tradicionales y puede manejar robustamente estructuras complejas:
- Superficies Abiertas: Como ropa, hojas, etc.
- Geometría No-múltiple: Formas geométricas complejas
- Estructuras Internas Cerradas: Modelos que contienen cavidades internas
Rica Representación de Materiales
Más allá de la información básica de color, TRELLIS.2 puede modelar varios atributos de superficie incluyendo color base, rugosidad, metálico y opacidad, permitiendo renderizado fotorrealista de activos 3D generados con soporte para transparencia.
Procesamiento Rápido de Datos
El proceso de procesamiento de datos del modelo está optimizado para conversión instantánea, completamente libre de procesos de renderizado y optimización:
- Malla Texturizada a O-Voxel: Menos de 10 segundos en un solo CPU
- O-Voxel a Malla Texturizada: Menos de 100 milisegundos con aceleración CUDA
Implementación Técnica
TRELLIS.2 está construido sobre varios paquetes especializados de alto rendimiento:
- O-Voxel: Biblioteca central que maneja la conversión entre mallas texturizadas y representación O-Voxel
- FlexGEMM: Implementación eficiente de convolución dispersa basada en Triton
- CuMesh: Utilidades de procesamiento de mallas aceleradas por CUDA para postprocesamiento, remallado, simplificación y desenvolvimiento UV
Disponibilidad del Modelo
El modelo preentrenado TRELLIS.2-4B está disponible en Hugging Face, soportando resoluciones que van desde 512³ hasta 1536³. El modelo y el código se publican bajo la licencia MIT, haciéndolo accesible para investigadores y desarrolladores.
El código del proyecto requiere sistemas Linux y una GPU NVIDIA con al menos 24GB de memoria. El código ha sido verificado en GPUs NVIDIA A100 y H100.
Aplicaciones Prácticas
TRELLIS.2 es particularmente adecuado para escenarios que requieren la generación rápida de activos 3D de alta calidad, como desarrollo de juegos, creación de contenido de realidad virtual y visualización de diseño de productos. Los activos 3D generados incluyen información completa de materiales PBR y pueden exportarse directamente a formato GLB para usar en varios software y motores 3D.
Para usuarios no técnicos, el equipo también proporciona una interfaz de demostración basada en web que permite la carga directa de imágenes para generación 3D sin escribir código o configurar entornos complejos.