Skip to content
ComfyUI Wiki
Aidez à Construire une Meilleure Base de Connaissances ComfyUI Devenir Parrain
ActualitésTencent publie Hunyuan Image 3.0 en open source - Le plus grand modèle de génération d'images à partir de texte au monde
Aucun article pour le moment. Revenez plus tard !

Tencent annonce le lancement de Hunyuan Image 3.0 - Le plus grand modèle de génération d’images à partir de texte open source au monde

Tencent a officiellement publié en open source Hunyuan Image 3.0 le 28 septembre, le premier modèle natif de génération d’images multimodal de niveau commercial open source, et actuellement le plus grand modèle de génération d’images open source avec un nombre total de paramètres atteignant 80 milliards.

Caractéristiques principales

Échelle de paramètres sans précédent

Hunyuan Image 3.0 possède un total de 80 milliards de paramètres avec 13 milliards de paramètres actifs, utilisant une architecture MoE (Mixture of Experts) avec 64 experts, ce qui en fait actuellement le plus grand modèle de génération d’images à partir de texte open source au monde.

Capacité de raisonnement fondée sur la connaissance du monde

Le modèle possède des capacités multimodales natives basées sur le raisonnement fondé sur la connaissance du monde, capable de générer du contenu d’image plus précis et plus riche en combinant le bon sens et les connaissances professionnelles. Le modèle peut :

  • Générer des tutoriels de dessin en grille 3x3 et des visualisations de flux d’algorithmes
  • Expliquer les principes physiques, les événements historiques et les processus biologiques
  • Créer des œuvres visuelles basées sur des œuvres littéraires et de la poésie

Compréhension sémantique complexe de milliers de caractères

Hunyuan Image 3.0 prend en charge la compréhension sémantique complexe de plus de 1000 caractères, ce qui est extrêmement rare parmi les modèles open source similaires. Le modèle est capable de :

  • Traiter des descriptions de scènes complexes
  • Comprendre des exigences détaillées à plusieurs niveaux
  • Prendre en charge l’entrée bilingue chinois-anglais

Rendu de texte précis

Le modèle excelle dans la génération de texte à l’intérieur des images, prenant en charge :

  • Le texte de titre dans les affiches
  • Le texte d’annotation dans les infographies
  • Les logos et marques de marque
  • Des textes multilingues mélangés

Architecture technique

Hunyuan Image 3.0 adopte une architecture innovante MoE+Transfusion, unifiant les capacités de compréhension et de génération multimodales. Contrairement aux architectures DiT traditionnelles, ce modèle utilise un cadre autoregressif unifié, réalisant une intégration approfondie des modalités texte et image.

Données d’entraînement

  • 5 milliards de paires image-texte
  • 6T jetons de texte
  • Stratégie d’entraînement progressive
  • Optimisation post-entraînement par apprentissage par renforcement

Exigences d’utilisation

Configuration matérielle

Ce modèle pourrait représenter un défi important pour les cartes graphiques grand public ordinaires, compte tenu de son énorme volume de 80 milliards de paramètres ; même les versions quantifiées pourraient être difficiles à exécuter sans problème sur les cartes graphiques grand public ordinaires.

  • GPU : ≥3×80GB de VRAM (recommandé 4×80GB)
  • Stockage : 170GB d’espace disponible
  • Mémoire : plus de 64GB de RAM système
  • Système : Linux + CUDA 12.8

Plan open source

Hunyuan Image 3.0 fournit une solution complète open source, incluant :

  • Le code d’inférence et les poids du modèle
  • La version de base HunyuanImage-3.0
  • La version HunyuanImage-3.0-Instruct (prend en charge les capacités de raisonnement)
  • À l’avenir, prendra en charge la génération d’image à image, l’interaction multipassage et d’autres fonctionnalités

Licence open source

Hunyuan Image 3.0 utilise la licence open source Tencent Hunyuan Community License Agreement. Cette licence permet :

  • L’utilisation, la copie, la distribution et la modification gratuites du modèle par les particuliers et les entreprises
  • Prend en charge l’utilisation commerciale et le développement d’œuvres dérivées
  • Autorise la fourniture de services hébergés via des API ou d’autres moyens

Restrictions importantes

  • Restrictions géographiques : Cette licence ne s’applique pas aux régions de l’UE, du Royaume-Uni et de la Corée du Sud
  • Limitations d’échelle d’utilisateurs : Si votre produit ou service compte plus de 100 millions d’utilisateurs actifs mensuels, vous devez demander à Tencent un permis supplémentaire
  • Restrictions d’utilisation : Interdit d’utiliser les sorties du modèle pour améliorer d’autres modèles d’IA (sauf pour la série Hunyuan)
  • Exigences de conformité : Doit respecter les lois et réglementations des différents pays et les politiques d’utilisation acceptables

Liens connexes