Tencent Hunyuan et l’équipe InstantX lancent le projet open source InstantCharacter
Tencent Hunyuan et l’équipe InstantX ont conjointement lancé le projet open source InstantCharacter, une méthode sans réglage conçue pour réaliser la génération de personnages cohérents à partir d’une seule image, supportant diverses tâches en aval. Le projet permet de générer des images de personnages cohérentes dans différentes scènes grâce à l’approche simple “une image + une phrase”.
Fonctionnalités principales
Cohérence des personnages entre les scènes
InstantCharacter peut maintenir une grande cohérence des caractéristiques d’apparence du personnage à travers différentes scènes (comme la cuisine, la ville), différentes actions (comme courir, parler) et différentes perspectives, basées sur des images de référence et des descriptions textuelles. Les utilisateurs n’ont besoin que d’entrer une image de personnage et d’ajuster les instructions textuelles pour générer des images cohérentes du personnage dans divers environnements.
Capacités de contrôle et d’édition flexibles
- Séparation de la pose et de la scène: Permet d’ajuster indépendamment les actions du personnage et les environnements d’arrière-plan
- Adaptation multi-styles: Compatible avec divers styles artistiques, notamment réaliste, dessin animé, cyberpunk, etc.
- Génération pilotée par texte: Il suffit de modifier les mots-clés pour changer rapidement les effets de génération
Architecture de génération efficace
Le projet utilise une technologie légère pour réaliser le transfert de style avec des ajustements de paramètres minimaux, réduisant considérablement la consommation de ressources informatiques et améliorant l’efficacité de génération.
Innovation technique
InstantCharacter construit son cadre de génération en utilisant Diffusion Transformer, dépassant les limitations de l’architecture U-Net traditionnelle. Le cadre introduit des modules adaptateurs évolutifs pour traiter les caractéristiques de personnages à domaine ouvert et interagit parfaitement avec l’espace latent des modèles de diffusion, améliorant efficacement la capacité de généralisation du modèle et la précision de l’image.
Le projet est entraîné sur un ensemble de données à grande échelle de dizaines de millions d’échantillons, optimisant la cohérence d’identité grâce à des données appariées et améliorant l’éditabilité du texte grâce à des données non appariées, formant une stratégie unique d’optimisation à double voie.
Scénarios d’application
InstantCharacter présente de larges perspectives d’application dans plusieurs domaines:
- Cinéma et animation: Générer rapidement des croquis de storyboard et des concepts de design, raccourcissant les cycles de modélisation des personnages
- Développement de jeux: Créer facilement du contenu d’extension de personnages dérivés de propriétés intellectuelles, comme de nouvelles scènes d’histoire
- Création de bandes dessinées: Générer efficacement des séquences dynamiques de personnages de BD multi-cases
- Création personnelle: Créer rapidement des images personnalisées pour les médias sociaux sans expérience professionnelle en modélisation
Écosystème open source et ressources
InstantCharacter prend en charge les modèles de texte à image open source comme Flux et fournit des outils de plug-in pour que les développeurs puissent les étendre. Ressources liées:
- Site officiel et dépôt de code: https://github.com/Tencent/InstantCharacter
- Expérience en ligne Hugging Face: https://huggingface.co/spaces/InstantX/InstantCharacter
- Page d’accueil du projet: https://instantcharacter.github.io/