Aucun article pour le moment. Revenez plus tard !

Tencent Open Source le Modèle de Génération Vidéo HunyuanVideo

Tencent a officiellement rendu open source HunyuanVideo, actuellement le plus grand modèle de génération vidéo de l’industrie. Avec 13 milliards de paramètres, le modèle atteint des performances de premier plan dans de nombreux aspects, notamment la qualité vidéo et la stabilité des mouvements, et est maintenant entièrement open source sur les plateformes GitHub et Hugging Face.

Caractéristiques Principales du Modèle

Architecture Unifiée de Génération d’Images et de Vidéos

Utilise une conception de modèle hybride “double flux vers flux unique”
Emploie l’architecture Transformer avec mécanisme d’attention complète
Prend en charge la génération unifiée d’images et de vidéos

Caractéristiques Techniques Avancées

Utilise un modèle de langage multimodal (MLLM) comme encodeur de texte
Implémente un VAE 3D pour la compression spatio-temporelle
Réécriture de prompts intégrée avec modes Normal et Master
Supporte la génération vidéo haute résolution jusqu’à 720p

Avantages Uniques

Excellentes performances avec le contenu de style chinois, incluant thèmes traditionnels et modernes
Prend en charge les transitions de plans via prompts tout en maintenant la cohérence d’ID
Maintient une physique stable dans les scènes de mouvement intense
Les évaluations professionnelles montrent des performances supérieures en alignement de texte, qualité de mouvement et qualité visuelle

Exigences Matérielles

Minimum : 45 Go de VRAM GPU (résolution 544x960)
Recommandé : 60 Go de VRAM GPU (résolution 720x1280)
Compatible avec les GPU H800/H20 et autres

Ressources Open Source

Le modèle est disponible sur :

Dépôt GitHub : Tencent/HunyuanVideo
Modèle Hugging Face : tencent/HunyuanVideo

Expérience en Ligne

Les utilisateurs peuvent expérimenter HunyuanVideo via :

Site officiel : Plateforme de Génération Vidéo Hunyuan
Section AI Video de l’application Tencent Yuanbao

Technologies Complémentaires

En plus du modèle principal de génération vidéo, Tencent a lancé une série de technologies complémentaires :

Technologie de Génération Conjointe Voix-Image
- Prend en charge la génération de vidéos avec parole faciale et actions
- Permet un contrôle précis du mouvement corporel complet
Compréhension du Contenu Vidéo et Doublage
- Reconnaissance intelligente du contenu vidéo
- Génère des doublages correspondants basés sur les prompts
Transfert d’Expressions Faciales
- Synchronisation labiale précise
- Effets naturels de transfert d’expressions

Perspectives d’Avenir

L’open source d’HunyuanVideo marque non seulement une avancée significative dans la technologie de génération vidéo, mais apporte également de nouvelles possibilités à l’ensemble du domaine de la génération vidéo par IA. En ouvrant le code source et les poids pré-entraînés, Tencent espère stimuler le développement de l’ensemble de l’écosystème de génération vidéo.

Avec l’optimisation continue du modèle et les efforts de la communauté, nous pouvons nous attendre à ce que la technologie de génération vidéo par IA joue un rôle de plus en plus important dans l’expression créative et la production de contenu dans un avenir proche.

Ressources Connexes

Documentation et Exemples Officiels : Documentation GitHub
Plateforme de Démonstration en Ligne : Plateforme de Génération Vidéo Hunyuan
Communauté Technique : GitHub Issues