Skip to content
Aidez à Construire une Meilleure Base de Connaissances ComfyUI Devenir Parrain
ActualitésStepFun Publie Step1X-3D en Open Source - Framework de Génération d'Actifs 3D Haute Fidélité
Aucun article pour le moment. Revenez plus tard !

StepFun Publie Step1X-3D Framework de Génération d’Actifs 3D Haute Fidélité en Open Source

StepFun a officiellement publié Step1X-3D en open source, un framework complet pour la génération d’actifs 3D haute fidélité. Ce framework peut générer des modèles 3D avec des structures géométriques fines et des textures diverses à partir d’une seule image, et est le premier à réaliser le transfert direct de techniques de contrôle 2D vers la génération 3D.

Démonstration Step1X-3D

Caractéristiques Principales

Step1X-3D adopte une architecture innovante de génération en deux étapes qui décompose le processus de génération 3D en génération de géométrie et synthèse de textures - deux étapes indépendantes mais coordonnées. Le framework présente les capacités centrales suivantes :

Pipeline de Traitement de Données Haute Qualité

L’équipe a construit un dataset d’entraînement de 2 millions d’actifs 3D de haute qualité grâce à des processus rigoureux de nettoyage et de filtrage de données à partir de plus de 5 millions d’actifs 3D originaux. Ce dataset atteint des standards élevés en précision géométrique, qualité des textures et intégrité topologique.

Technologie Avancée de Génération de Géométrie

Le module de génération de géométrie emploie une architecture hybride VAE-DiT capable de générer des représentations de Fonction de Distance Signée Tronquée (TSDF) étanches. Grâce à l’encodage de percepteur et aux techniques d’échantillonnage de bords nets, le système préserve efficacement les détails géométriques et génère des maillages 3D topologiquement solides.

Architecture du Système

Synthèse Précise de Textures

Le module de synthèse de textures est affiné basé sur Stable Diffusion XL, fournissant un guidage géométrique à travers des cartes normales et des cartes de position pour assurer un alignement précis entre les textures générées et la géométrie 3D. Le système supporte la cohérence multi-vues et peut générer des cartes de textures haute résolution.

Mécanismes de Contrôle Flexibles

Step1X-3D supporte des techniques d’ajustement fin efficaces en paramètres comme LoRA, permettant aux utilisateurs de contrôler la symétrie des objets, les niveaux de détail géométrique et d’autres attributs via des étiquettes. Cela fournit aux utilisateurs plus d’options de contrôle créatif.

Avantages Techniques

Comparé aux solutions open source existantes, Step1X-3D excelle dans plusieurs aspects :

Qualité de Génération : Dans les tests de référence, la qualité de génération de géométrie et de textures de Step1X-3D surpasse les références open source existantes, atteignant des performances comparables aux solutions commerciales dans certaines métriques.

Open Source Complet : Contrairement à de nombreux projets qui ne publient que les poids des modèles, Step1X-3D fournit du code d’entraînement complet, des pipelines de traitement de données et des modules d’adaptation, facilitant la reproduction et l’amélioration par les chercheurs.

Compatibilité d’Écosystème : En supportant le transfert de techniques de contrôle 2D vers la 3D, Step1X-3D forme une bonne compatibilité avec les écosystèmes de génération d’images existants.

Contenus Open Source

Cette publication open source inclut :

  • Poids des Modèles : Incluant le modèle de génération de géométrie (1.3B paramètres) et le modèle de synthèse de textures (3.5B paramètres)
  • Code d’Entraînement : Code d’entraînement complet pour VAE, modèles de diffusion et génération multi-vues
  • Dataset : Liste d’UID de 800K actifs 3D de haute qualité
  • Démo en Ligne : Démonstration interactive sur HuggingFace Spaces
  • Outils d’Adaptation : Modules d’adaptation supportant l’ajustement fin LoRA

Cas d’Usage

Step1X-3D convient à divers scénarios d’application :

Création de Contenu : Génération rapide d’actifs 3D pour le développement de jeux, la production cinématographique et d’autres domaines Conception de Produits : Génération rapide de prototypes 3D basés sur des images conceptuelles Éducation et Formation : Outils auxiliaires pour l’éducation en modélisation 3D et design Recherche et Développement : Plateforme fondamentale pour la recherche en algorithmes de génération 3D

Détails Techniques

Pipeline de Génération de Géométrie

Le système utilise d’abord un auto-encodeur variationnel de formes 3D pour comprimer les nuages de points dans l’espace latent, puis effectue la génération de géométrie à travers un transformateur de diffusion inspiré de FLUX. Ce processus emploie l’échantillonnage de bords nets et des mécanismes de double attention croisée pour améliorer la préservation des détails géométriques.

Pipeline de Synthèse de Textures

La génération de textures utilise un pipeline multi-étapes : d’abord le post-traitement de la géométrie pour assurer la cohérence topologique, puis la création de textures à travers des modèles de génération d’images multi-vues, et enfin compléter le mappage de textures à travers la cuisson UV et la réparation.

Résultats de Performance

Dans les études utilisateurs, Step1X-3D a obtenu des scores élevés en rationalité géométrique, clarté des textures et qualité globale, démontrant son potentiel pour les applications pratiques.

Réponse de la Communauté

Depuis son lancement, Step1X-3D a attiré une attention généralisée dans la communauté open source. Le projet a gagné une attention significative des développeurs sur GitHub, et la démonstration en ligne sur HuggingFace a attiré de nombreux utilisateurs pour l’expérimenter.

De nombreux chercheurs ont déclaré que la stratégie open source complète de Step1X-3D fournit des ressources précieuses pour la recherche dans le domaine de la génération 3D, aidant à faire avancer l’ensemble du domaine.

Plans Futurs

Selon la feuille de route du projet, l’équipe prévoit de publier plus de fonctionnalités à l’avenir :

  • Support pour des conditions de contrôle supplémentaires comme multi-vues, boîtes englobantes et squelettes
  • Support d’intégration de workflow ComfyUI
  • Plus de modèles de génération contrôlables
  • Optimisation des performances et accélération d’inférence

Liens Connexes