Skip to content
Aidez à Construire une Meilleure Base de Connaissances ComfyUI Devenir Parrain
ActualitésOmniSVG : L'Université de Fudan et StepFun lancent un modèle unifié de génération de graphiques vectoriels
Aucun article pour le moment. Revenez plus tard !

OmniSVG : L’Université de Fudan et StepFun lancent un modèle unifié de génération de graphiques vectoriels

L’Université de Fudan et l’équipe StepFun ont conjointement lancé OmniSVG, un modèle unifié de génération de graphiques vectoriels (SVG). Ce modèle peut générer des graphiques vectoriels de haute qualité allant de simples icônes à des personnages d’anime complexes, à travers diverses méthodes d’entrée comprenant du texte, des images ou des références de personnages.

Contrairement aux modèles traditionnels de génération d’images, OmniSVG produit des fichiers SVG infiniment évolutifs et entièrement modifiables, permettant aux designers d’utiliser directement les résultats générés pour le post-traitement et la modification, améliorant considérablement l’utilité pratique des graphiques générés par IA dans les flux de travail de conception professionnels.

Exemples du modèle OmniSVG

Innovations techniques et principes de fonctionnement

OmniSVG est construit sur le modèle préentraîné de vision-langage (VLM) Qwen-VL et aborde les défis fondamentaux de la génération de graphiques vectoriels grâce à des méthodes innovantes de tokenisation SVG. Le modèle paramètre les commandes et coordonnées SVG en tokens discrets, découplant la logique structurelle des détails géométriques tout en maintenant la capacité expressive des structures SVG complexes.

Flux de travail OmniSVG

Cette conception offre plusieurs avantages clés :

  • Processus de génération efficace : Vitesse d’entraînement améliorée de plus de 3 fois par rapport aux méthodes traditionnelles
  • Support de contexte long : Traite des séquences jusqu’à 30 000 tokens, permettant la génération de SVG complexes avec des détails riches
  • Compatibilité d’entrée multimodale : Prend en charge diverses méthodes d’entrée, y compris les descriptions textuelles, les références d’images ou les références de personnages

Démonstration du processus de génération :

Démonstration du processus de génération

Multiples modes de génération

OmniSVG prend en charge plusieurs modes de génération pour répondre aux besoins de différents scénarios d’application :

Génération de texte vers SVG

Les utilisateurs peuvent générer des graphiques vectoriels sémantiquement appropriés grâce à des descriptions en langage naturel, comme “un chat de dessin animé assis sous un cerisier en fleurs”.

Exemples de texte vers SVG

Conversion d’image vers SVG

Convertit automatiquement les images bitmap (comme les photos ou les croquis dessinés à la main) en graphiques vectoriels composés de tracés, préservant les caractéristiques visuelles de l’image originale tout en gagnant en modifiabilité.

Exemples d'image vers SVG

Génération de SVG par référence de personnage

Génère des graphiques vectoriels qui maintiennent les mêmes caractéristiques de personnage mais avec des poses ou des scénarios différents, basés sur des images de personnages existantes, ce qui est particulièrement précieux pour la conception de personnages d’animation et de jeux.

Exemples de génération par référence de personnage

Ensemble de données MMSVG-2M

Pour faire progresser la technologie de génération SVG, l’équipe de recherche a mis en open source l’ensemble de données MMSVG-2M, le premier ensemble de données multimodal SVG à grande échelle contenant 2 millions d’échantillons couvrant des catégories telles que les icônes, les illustrations et les conceptions de personnages.

Visualisation de l'ensemble de données MMSVG-2M

Les caractéristiques clés de l’ensemble de données MMSVG-2M comprennent :

  • Riche diversité : S’étend des icônes simples aux conceptions complexes de personnages avec une large gamme de complexité
  • Annotations multimodales : Chaque SVG est accompagné de descriptions textuelles et de rendus bitmap correspondants
  • Échantillons de haute qualité : Fournit des échantillons de conception graphique vectorielle de niveau professionnel

Actuellement, l’équipe de recherche a mis en open source les sous-ensembles de données MMSVG-Icon et MMSVG-Illustration sur la plateforme Hugging Face, avec l’ensemble de données MMSVG-Character prévu pour une sortie prochaine.

Potentiel d’application et limitations

Scénarios d’application

  • Automatisation de la conception : Générer rapidement des icônes de marque et des matériaux d’illustration, réduisant le temps de dessin manuel
  • Création de contenu dynamique : Générer par lots des séquences d’action de personnages en combinaison avec des outils d’animation
  • Adaptation multi-plateformes : Les graphiques vectoriels générés peuvent être mis à l’échelle sans perte, adaptés à diverses résolutions, des appareils mobiles aux écrans 4K

Limitations actuelles

  • Vitesse de génération : Les échantillons complexes nécessitent de générer des dizaines de milliers de tokens, entraînant des temps d’inférence plus longs (par exemple, 139 secondes pour générer un personnage d’anime)
  • Généralisation de style : Effets de conversion limités pour les entrées d’image dont le style ne figure pas dans l’ensemble d’entraînement, nécessitant une intégration supplémentaire de données multi-styles

Plans open source et ressources

L’équipe de recherche a mis en open source les ensembles de données MMSVG-Icon et MMSVG-Illustration, et prévoit de faire de même avec le code du modèle et les poids préentraînés dans un avenir proche. La mise en open source du projet OmniSVG fournira un nouveau paradigme technique pour le domaine de la génération SVG, favorisant la mise à niveau intelligente des outils de conception.

Liens connexes

Le lancement d’OmniSVG marque une avancée importante dans la technologie de génération de graphiques vectoriels, apportant de nouvelles possibilités dans des domaines tels que la conception graphique, la création d’UI/UX et la production de contenu visuel, tout en offrant une nouvelle direction pour l’intégration du contenu généré par IA dans les flux de travail de conception professionnels.