Tencent lance HunyuanCustom, un système de génération vidéo multimodal

Tencent a récemment dévoilé une technologie innovante de génération de vidéos—HunyuanCustom, un cadre de personnalisation vidéo multimodal capable de maintenir la cohérence du sujet tout en prenant en charge diverses conditions d'entrée, notamment le texte, les images, l'audio et la vidéo. La technologie a été publiée en open source avec les modèles et le code pertinents, ouvrant de nouvelles possibilités pour la création de contenu vidéo.

Innovation technique

Construit sur le cadre de génération vidéo Hunyuan, HunyuanCustom se concentre sur la résolution de deux défis majeurs dans la technologie actuelle de génération de vidéos : la cohérence d'identité et les modalités d'entrée limitées. La technologie introduit plusieurs innovations clés :

Module de fusion texte-image : Basé sur la technologie LLaVA, améliorant les capacités de compréhension multimodale
Module d'amélioration de l'ID d'image : Exploitant la concaténation temporelle pour renforcer les caractéristiques d'identité à travers les images
Mécanismes d'injection de conditions spécifiques à la modalité :
- Module AudioNet : Réalisant un alignement hiérarchique via une attention croisée spatiale
- Module d'injection piloté par vidéo : Intégrant une vidéo conditionnelle via un réseau d'alignement de caractéristiques basé sur le découpage en patchs

Ces innovations techniques permettent à HunyuanCustom de surpasser significativement les méthodes existantes, qu'elles soient open source ou propriétaires, en termes de cohérence d'identité, de réalisme et d'alignement texte-vidéo.

Capacités de personnalisation vidéo multimodale

HunyuanCustom prend en charge diverses formes d'entrées, notamment :

Entrée de texte et d'image : Peut gérer des entrées d'une ou plusieurs images pour permettre la génération de vidéos personnalisées pour un ou plusieurs sujets
Entrée audio : Peut incorporer une entrée audio supplémentaire pour faire prononcer au sujet le contenu audio correspondant
Entrée vidéo : Prend en charge l'entrée vidéo, permettant le remplacement d'objets spécifiques dans la vidéo par des sujets provenant d'une image donnée

Scénarios d'application

Les capacités multimodales de HunyuanCustom prennent en charge diverses tâches en aval :

Publicités humaines virtuelles : Création de vidéos de présentation de produits en saisissant plusieurs images
Essayage virtuel : Génération de vidéos de personnes portant des vêtements spécifiques
Avatars chantants : Création de personnages virtuels qui chantent en combinant image et audio
Édition vidéo : Utilisation d'image et de vidéo comme entrées pour remplacer les sujets dans les vidéos

Scénarios d'application de HunyuanCustom

Comparaison de performances

HunyuanCustom a été comparé aux méthodes de personnalisation vidéo de pointe, notamment VACE, Skyreels, Pika, Vidu, Keling et Hailuo. L'évaluation s'est concentrée sur la cohérence du visage/sujet, l'alignement vidéo-texte et la qualité globale de la vidéo.

En termes de métriques clés, HunyuanCustom a démontré des avantages significatifs :

Similitude faciale (Face-Sim) : 0,627 (Classé 1er)
Similitude DINO : 0,593 (Classé 1er)
Cohérence temporelle : 0,958 (Proche du meilleur)

Plan open source

Tencent a publié le code d'inférence et les poids du modèle de HunyuanCustom le 8 mai 2025. Selon le plan open source, l'équipe publiera progressivement :

Personnalisation vidéo à sujet unique
- Code d'inférence (déjà publié)
- Points de contrôle du modèle (déjà publiés)
- Plugin ComfyUI
Personnalisation vidéo pilotée par audio
Personnalisation vidéo pilotée par vidéo
Personnalisation vidéo multi-sujets

Exigences système

Les exigences système pour générer des vidéos avec le modèle HunyuanCustom sont les suivantes :

Exigence minimale : Au moins 24 Go de VRAM sont nécessaires pour générer des vidéos 720p (mais très lent)
Configuration recommandée : Un GPU avec 80 Go de mémoire est recommandé pour une meilleure qualité de génération