Skip to content
Aidez à Construire une Meilleure Base de Connaissances ComfyUI Devenir Parrain
ActualitésTencent lance HunyuanCustom, un système de génération vidéo multimodal
Aucun article pour le moment. Revenez plus tard !

Tencent lance HunyuanCustom, un système de génération vidéo multimodal

Tencent a récemment dévoilé une technologie innovante de génération de vidéos—HunyuanCustom, un cadre de personnalisation vidéo multimodal capable de maintenir la cohérence du sujet tout en prenant en charge diverses conditions d’entrée, notamment le texte, les images, l’audio et la vidéo. La technologie a été publiée en open source avec les modèles et le code pertinents, ouvrant de nouvelles possibilités pour la création de contenu vidéo.

Architecture globale de HunyuanCustom

Innovation technique

Construit sur le cadre de génération vidéo Hunyuan, HunyuanCustom se concentre sur la résolution de deux défis majeurs dans la technologie actuelle de génération de vidéos : la cohérence d’identité et les modalités d’entrée limitées. La technologie introduit plusieurs innovations clés :

  1. Module de fusion texte-image : Basé sur la technologie LLaVA, améliorant les capacités de compréhension multimodale
  2. Module d’amélioration de l’ID d’image : Exploitant la concaténation temporelle pour renforcer les caractéristiques d’identité à travers les images
  3. Mécanismes d’injection de conditions spécifiques à la modalité :
    • Module AudioNet : Réalisant un alignement hiérarchique via une attention croisée spatiale
    • Module d’injection piloté par vidéo : Intégrant une vidéo conditionnelle via un réseau d’alignement de caractéristiques basé sur le découpage en patchs

Ces innovations techniques permettent à HunyuanCustom de surpasser significativement les méthodes existantes, qu’elles soient open source ou propriétaires, en termes de cohérence d’identité, de réalisme et d’alignement texte-vidéo.

Capacités de personnalisation vidéo multimodale

HunyuanCustom prend en charge diverses formes d’entrées, notamment :

  • Entrée de texte et d’image : Peut gérer des entrées d’une ou plusieurs images pour permettre la génération de vidéos personnalisées pour un ou plusieurs sujets
  • Entrée audio : Peut incorporer une entrée audio supplémentaire pour faire prononcer au sujet le contenu audio correspondant
  • Entrée vidéo : Prend en charge l’entrée vidéo, permettant le remplacement d’objets spécifiques dans la vidéo par des sujets provenant d’une image donnée

Capacités multimodales de HunyuanCustom

Scénarios d’application

Les capacités multimodales de HunyuanCustom prennent en charge diverses tâches en aval :

  • Publicités humaines virtuelles : Création de vidéos de présentation de produits en saisissant plusieurs images
  • Essayage virtuel : Génération de vidéos de personnes portant des vêtements spécifiques
  • Avatars chantants : Création de personnages virtuels qui chantent en combinant image et audio
  • Édition vidéo : Utilisation d’image et de vidéo comme entrées pour remplacer les sujets dans les vidéos

Scénarios d'application de HunyuanCustom

Comparaison de performances

HunyuanCustom a été comparé aux méthodes de personnalisation vidéo de pointe, notamment VACE, Skyreels, Pika, Vidu, Keling et Hailuo. L’évaluation s’est concentrée sur la cohérence du visage/sujet, l’alignement vidéo-texte et la qualité globale de la vidéo.

En termes de métriques clés, HunyuanCustom a démontré des avantages significatifs :

  • Similitude faciale (Face-Sim) : 0,627 (Classé 1er)
  • Similitude DINO : 0,593 (Classé 1er)
  • Cohérence temporelle : 0,958 (Proche du meilleur)

Plan open source

Tencent a publié le code d’inférence et les poids du modèle de HunyuanCustom le 8 mai 2025. Selon le plan open source, l’équipe publiera progressivement :

  • Personnalisation vidéo à sujet unique
    • Code d’inférence (déjà publié)
    • Points de contrôle du modèle (déjà publiés)
    • Plugin ComfyUI
  • Personnalisation vidéo pilotée par audio
  • Personnalisation vidéo pilotée par vidéo
  • Personnalisation vidéo multi-sujets

Exigences système

Les exigences système pour générer des vidéos avec le modèle HunyuanCustom sont les suivantes :

ModèleParamètre (hauteur/largeur/images)Mémoire GPU maximale
HunyuanCustom720px1280px129f80GB
HunyuanCustom512px896px129f60GB
  • Exigence minimale : Au moins 24 Go de VRAM sont nécessaires pour générer des vidéos 720p (mais très lent)
  • Configuration recommandée : Un GPU avec 80 Go de mémoire est recommandé pour une meilleure qualité de génération

Liens connexes