OmniSVG : L’Université de Fudan et StepFun lancent un modèle unifié de génération de graphiques vectoriels
L’Université de Fudan et l’équipe StepFun ont conjointement lancé OmniSVG, un modèle unifié de génération de graphiques vectoriels (SVG). Ce modèle peut générer des graphiques vectoriels de haute qualité allant de simples icônes à des personnages d’anime complexes, à travers diverses méthodes d’entrée comprenant du texte, des images ou des références de personnages.
Contrairement aux modèles traditionnels de génération d’images, OmniSVG produit des fichiers SVG infiniment évolutifs et entièrement modifiables, permettant aux designers d’utiliser directement les résultats générés pour le post-traitement et la modification, améliorant considérablement l’utilité pratique des graphiques générés par IA dans les flux de travail de conception professionnels.
Innovations techniques et principes de fonctionnement
OmniSVG est construit sur le modèle préentraîné de vision-langage (VLM) Qwen-VL et aborde les défis fondamentaux de la génération de graphiques vectoriels grâce à des méthodes innovantes de tokenisation SVG. Le modèle paramètre les commandes et coordonnées SVG en tokens discrets, découplant la logique structurelle des détails géométriques tout en maintenant la capacité expressive des structures SVG complexes.
Cette conception offre plusieurs avantages clés :
- Processus de génération efficace : Vitesse d’entraînement améliorée de plus de 3 fois par rapport aux méthodes traditionnelles
- Support de contexte long : Traite des séquences jusqu’à 30 000 tokens, permettant la génération de SVG complexes avec des détails riches
- Compatibilité d’entrée multimodale : Prend en charge diverses méthodes d’entrée, y compris les descriptions textuelles, les références d’images ou les références de personnages
Démonstration du processus de génération :
Multiples modes de génération
OmniSVG prend en charge plusieurs modes de génération pour répondre aux besoins de différents scénarios d’application :
Génération de texte vers SVG
Les utilisateurs peuvent générer des graphiques vectoriels sémantiquement appropriés grâce à des descriptions en langage naturel, comme “un chat de dessin animé assis sous un cerisier en fleurs”.
Conversion d’image vers SVG
Convertit automatiquement les images bitmap (comme les photos ou les croquis dessinés à la main) en graphiques vectoriels composés de tracés, préservant les caractéristiques visuelles de l’image originale tout en gagnant en modifiabilité.
Génération de SVG par référence de personnage
Génère des graphiques vectoriels qui maintiennent les mêmes caractéristiques de personnage mais avec des poses ou des scénarios différents, basés sur des images de personnages existantes, ce qui est particulièrement précieux pour la conception de personnages d’animation et de jeux.
Ensemble de données MMSVG-2M
Pour faire progresser la technologie de génération SVG, l’équipe de recherche a mis en open source l’ensemble de données MMSVG-2M, le premier ensemble de données multimodal SVG à grande échelle contenant 2 millions d’échantillons couvrant des catégories telles que les icônes, les illustrations et les conceptions de personnages.
Les caractéristiques clés de l’ensemble de données MMSVG-2M comprennent :
- Riche diversité : S’étend des icônes simples aux conceptions complexes de personnages avec une large gamme de complexité
- Annotations multimodales : Chaque SVG est accompagné de descriptions textuelles et de rendus bitmap correspondants
- Échantillons de haute qualité : Fournit des échantillons de conception graphique vectorielle de niveau professionnel
Actuellement, l’équipe de recherche a mis en open source les sous-ensembles de données MMSVG-Icon et MMSVG-Illustration sur la plateforme Hugging Face, avec l’ensemble de données MMSVG-Character prévu pour une sortie prochaine.
Potentiel d’application et limitations
Scénarios d’application
- Automatisation de la conception : Générer rapidement des icônes de marque et des matériaux d’illustration, réduisant le temps de dessin manuel
- Création de contenu dynamique : Générer par lots des séquences d’action de personnages en combinaison avec des outils d’animation
- Adaptation multi-plateformes : Les graphiques vectoriels générés peuvent être mis à l’échelle sans perte, adaptés à diverses résolutions, des appareils mobiles aux écrans 4K
Limitations actuelles
- Vitesse de génération : Les échantillons complexes nécessitent de générer des dizaines de milliers de tokens, entraînant des temps d’inférence plus longs (par exemple, 139 secondes pour générer un personnage d’anime)
- Généralisation de style : Effets de conversion limités pour les entrées d’image dont le style ne figure pas dans l’ensemble d’entraînement, nécessitant une intégration supplémentaire de données multi-styles
Plans open source et ressources
L’équipe de recherche a mis en open source les ensembles de données MMSVG-Icon et MMSVG-Illustration, et prévoit de faire de même avec le code du modèle et les poids préentraînés dans un avenir proche. La mise en open source du projet OmniSVG fournira un nouveau paradigme technique pour le domaine de la génération SVG, favorisant la mise à niveau intelligente des outils de conception.
Liens connexes
Le lancement d’OmniSVG marque une avancée importante dans la technologie de génération de graphiques vectoriels, apportant de nouvelles possibilités dans des domaines tels que la conception graphique, la création d’UI/UX et la production de contenu visuel, tout en offrant une nouvelle direction pour l’intégration du contenu généré par IA dans les flux de travail de conception professionnels.