Microsoft Lance TRELLIS.2 - Modèle de Génération Image-vers-3D avec 4 Milliards de Paramètres
Microsoft a récemment lancé TRELLIS.2, un grand modèle génératif 3D avec 4 milliards de paramètres, spécifiquement conçu pour les tâches de génération image-vers-3D haute fidélité. Le modèle utilise une nouvelle structure de voxels clairsemés appelée O-Voxel, capable de reconstruire et de générer des actifs 3D avec des topologies complexes, des caractéristiques nettes et des matériaux PBR complets.

Caractéristiques Principales
Haute Qualité et Efficacité
TRELLIS.2 utilise la technologie Sparse 3D VAE avec un sous-échantillonnage spatial de 16× pour encoder les actifs 3D dans un espace latent compact. Le modèle peut générer des actifs haute résolution entièrement texturés avec une vitesse impressionnante :
- Résolution 512³ : Environ 3 secondes (2s forme + 1s matériau)
- Résolution 1024³ : Environ 17 secondes (10s forme + 7s matériau)
- Résolution 1536³ : Environ 60 secondes (35s forme + 25s matériau)
Ces résultats de test sont basés sur GPU NVIDIA H100.
Support de Topologies Complexes
La méthode de représentation O-Voxel dépasse les limitations des champs d’isosurface traditionnels et peut gérer robustement des structures complexes :
- Surfaces Ouvertes : Comme les vêtements, les feuilles, etc.
- Géométrie Non-manifold : Formes géométriques complexes
- Structures Internes Fermées : Modèles contenant des cavités internes
Représentation Riche des Matériaux
Au-delà des informations de couleur de base, TRELLIS.2 peut modéliser divers attributs de surface, notamment la couleur de base, la rugosité, le métallique et l’opacité, permettant un rendu photoréaliste des actifs 3D générés avec support de transparence.
Traitement Rapide des Données
Le pipeline de traitement des données du modèle est optimisé pour une conversion instantanée, complètement exempt de processus de rendu et d’optimisation :
- Maillage Texturé vers O-Voxel : Moins de 10 secondes sur un seul CPU
- O-Voxel vers Maillage Texturé : Moins de 100 millisecondes avec accélération CUDA
Implémentation Technique
TRELLIS.2 est construit sur plusieurs packages haute performance spécialisés :
- O-Voxel : Bibliothèque centrale gérant la conversion entre maillages texturés et représentation O-Voxel
- FlexGEMM : Implémentation efficace de convolution clairsemée basée sur Triton
- CuMesh : Utilitaires de traitement de maillage accélérés par CUDA pour le post-traitement, le remaillage, la simplification et le dépliage UV
Disponibilité du Modèle
Le modèle pré-entraîné TRELLIS.2-4B est disponible sur Hugging Face, supportant des résolutions allant de 512³ à 1536³. Le modèle et le code sont publiés sous licence MIT, les rendant accessibles aux chercheurs et développeurs.
Le code du projet nécessite des systèmes Linux et un GPU NVIDIA avec au moins 24 Go de mémoire. Le code a été vérifié sur les GPU NVIDIA A100 et H100.
Applications Pratiques
TRELLIS.2 est particulièrement adapté aux scénarios nécessitant la génération rapide d’actifs 3D de haute qualité, tels que le développement de jeux, la création de contenu de réalité virtuelle et la visualisation de conception de produits. Les actifs 3D générés incluent des informations complètes sur les matériaux PBR et peuvent être exportés directement au format GLB pour une utilisation dans divers logiciels et moteurs 3D.
Pour les utilisateurs non techniques, l’équipe fournit également une interface de démonstration basée sur le web qui permet le téléchargement direct d’images pour la génération 3D sans écrire de code ou configurer des environnements complexes.