StepFun Publie Step1X-3D Framework de Génération d’Actifs 3D Haute Fidélité en Open Source
StepFun a officiellement publié Step1X-3D en open source, un framework complet pour la génération d’actifs 3D haute fidélité. Ce framework peut générer des modèles 3D avec des structures géométriques fines et des textures diverses à partir d’une seule image, et est le premier à réaliser le transfert direct de techniques de contrôle 2D vers la génération 3D.
Caractéristiques Principales
Step1X-3D adopte une architecture innovante de génération en deux étapes qui décompose le processus de génération 3D en génération de géométrie et synthèse de textures - deux étapes indépendantes mais coordonnées. Le framework présente les capacités centrales suivantes :
Pipeline de Traitement de Données Haute Qualité
L’équipe a construit un dataset d’entraînement de 2 millions d’actifs 3D de haute qualité grâce à des processus rigoureux de nettoyage et de filtrage de données à partir de plus de 5 millions d’actifs 3D originaux. Ce dataset atteint des standards élevés en précision géométrique, qualité des textures et intégrité topologique.
Technologie Avancée de Génération de Géométrie
Le module de génération de géométrie emploie une architecture hybride VAE-DiT capable de générer des représentations de Fonction de Distance Signée Tronquée (TSDF) étanches. Grâce à l’encodage de percepteur et aux techniques d’échantillonnage de bords nets, le système préserve efficacement les détails géométriques et génère des maillages 3D topologiquement solides.
Synthèse Précise de Textures
Le module de synthèse de textures est affiné basé sur Stable Diffusion XL, fournissant un guidage géométrique à travers des cartes normales et des cartes de position pour assurer un alignement précis entre les textures générées et la géométrie 3D. Le système supporte la cohérence multi-vues et peut générer des cartes de textures haute résolution.
Mécanismes de Contrôle Flexibles
Step1X-3D supporte des techniques d’ajustement fin efficaces en paramètres comme LoRA, permettant aux utilisateurs de contrôler la symétrie des objets, les niveaux de détail géométrique et d’autres attributs via des étiquettes. Cela fournit aux utilisateurs plus d’options de contrôle créatif.
Avantages Techniques
Comparé aux solutions open source existantes, Step1X-3D excelle dans plusieurs aspects :
Qualité de Génération : Dans les tests de référence, la qualité de génération de géométrie et de textures de Step1X-3D surpasse les références open source existantes, atteignant des performances comparables aux solutions commerciales dans certaines métriques.
Open Source Complet : Contrairement à de nombreux projets qui ne publient que les poids des modèles, Step1X-3D fournit du code d’entraînement complet, des pipelines de traitement de données et des modules d’adaptation, facilitant la reproduction et l’amélioration par les chercheurs.
Compatibilité d’Écosystème : En supportant le transfert de techniques de contrôle 2D vers la 3D, Step1X-3D forme une bonne compatibilité avec les écosystèmes de génération d’images existants.
Contenus Open Source
Cette publication open source inclut :
- Poids des Modèles : Incluant le modèle de génération de géométrie (1.3B paramètres) et le modèle de synthèse de textures (3.5B paramètres)
- Code d’Entraînement : Code d’entraînement complet pour VAE, modèles de diffusion et génération multi-vues
- Dataset : Liste d’UID de 800K actifs 3D de haute qualité
- Démo en Ligne : Démonstration interactive sur HuggingFace Spaces
- Outils d’Adaptation : Modules d’adaptation supportant l’ajustement fin LoRA
Cas d’Usage
Step1X-3D convient à divers scénarios d’application :
Création de Contenu : Génération rapide d’actifs 3D pour le développement de jeux, la production cinématographique et d’autres domaines Conception de Produits : Génération rapide de prototypes 3D basés sur des images conceptuelles Éducation et Formation : Outils auxiliaires pour l’éducation en modélisation 3D et design Recherche et Développement : Plateforme fondamentale pour la recherche en algorithmes de génération 3D
Détails Techniques
Pipeline de Génération de Géométrie
Le système utilise d’abord un auto-encodeur variationnel de formes 3D pour comprimer les nuages de points dans l’espace latent, puis effectue la génération de géométrie à travers un transformateur de diffusion inspiré de FLUX. Ce processus emploie l’échantillonnage de bords nets et des mécanismes de double attention croisée pour améliorer la préservation des détails géométriques.
Pipeline de Synthèse de Textures
La génération de textures utilise un pipeline multi-étapes : d’abord le post-traitement de la géométrie pour assurer la cohérence topologique, puis la création de textures à travers des modèles de génération d’images multi-vues, et enfin compléter le mappage de textures à travers la cuisson UV et la réparation.
Résultats de Performance
Dans les études utilisateurs, Step1X-3D a obtenu des scores élevés en rationalité géométrique, clarté des textures et qualité globale, démontrant son potentiel pour les applications pratiques.
Réponse de la Communauté
Depuis son lancement, Step1X-3D a attiré une attention généralisée dans la communauté open source. Le projet a gagné une attention significative des développeurs sur GitHub, et la démonstration en ligne sur HuggingFace a attiré de nombreux utilisateurs pour l’expérimenter.
De nombreux chercheurs ont déclaré que la stratégie open source complète de Step1X-3D fournit des ressources précieuses pour la recherche dans le domaine de la génération 3D, aidant à faire avancer l’ensemble du domaine.
Plans Futurs
Selon la feuille de route du projet, l’équipe prévoit de publier plus de fonctionnalités à l’avenir :
- Support pour des conditions de contrôle supplémentaires comme multi-vues, boîtes englobantes et squelettes
- Support d’intégration de workflow ComfyUI
- Plus de modèles de génération contrôlables
- Optimisation des performances et accélération d’inférence
Liens Connexes
- Article Technique
- Dépôt GitHub
- Page du Modèle HuggingFace
- Démo en Ligne
- Page du Projet
- Téléchargement du Dataset