Tencent publie Hunyuan Image 3.0 en open source - Le plus grand modèle de génération d'images à partir de texte au monde

Tencent a officiellement publié en open source Hunyuan Image 3.0 le 28 septembre, le premier modèle natif de génération d'images multimodal de niveau commercial open source, et actuellement le plus grand modèle de génération d'images open source avec un nombre total de paramètres atteignant 80 milliards.

Caractéristiques principales

Échelle de paramètres sans précédent

Hunyuan Image 3.0 possède un total de 80 milliards de paramètres avec 13 milliards de paramètres actifs, utilisant une architecture MoE (Mixture of Experts) avec 64 experts, ce qui en fait actuellement le plus grand modèle de génération d'images à partir de texte open source au monde.

Capacité de raisonnement fondée sur la connaissance du monde

Le modèle possède des capacités multimodales natives basées sur le raisonnement fondé sur la connaissance du monde, capable de générer du contenu d'image plus précis et plus riche en combinant le bon sens et les connaissances professionnelles. Le modèle peut :

Générer des tutoriels de dessin en grille 3x3 et des visualisations de flux d'algorithmes
Expliquer les principes physiques, les événements historiques et les processus biologiques
Créer des œuvres visuelles basées sur des œuvres littéraires et de la poésie

Compréhension sémantique complexe de milliers de caractères

Hunyuan Image 3.0 prend en charge la compréhension sémantique complexe de plus de 1000 caractères, ce qui est extrêmement rare parmi les modèles open source similaires. Le modèle est capable de :

Traiter des descriptions de scènes complexes
Comprendre des exigences détaillées à plusieurs niveaux
Prendre en charge l'entrée bilingue chinois-anglais

Rendu de texte précis

Le modèle excelle dans la génération de texte à l'intérieur des images, prenant en charge :

Le texte de titre dans les affiches
Le texte d'annotation dans les infographies
Les logos et marques de marque
Des textes multilingues mélangés

Architecture technique

Hunyuan Image 3.0 adopte une architecture innovante MoE+Transfusion, unifiant les capacités de compréhension et de génération multimodales. Contrairement aux architectures DiT traditionnelles, ce modèle utilise un cadre autoregressif unifié, réalisant une intégration approfondie des modalités texte et image.

Données d'entraînement

5 milliards de paires image-texte
6T jetons de texte
Stratégie d'entraînement progressive
Optimisation post-entraînement par apprentissage par renforcement

Exigences d'utilisation

Configuration matérielle

Ce modèle pourrait représenter un défi important pour les cartes graphiques grand public ordinaires, compte tenu de son énorme volume de 80 milliards de paramètres ; même les versions quantifiées pourraient être difficiles à exécuter sans problème sur les cartes graphiques grand public ordinaires.

GPU : ≥3×80GB de VRAM (recommandé 4×80GB)
Stockage : 170GB d'espace disponible
Mémoire : plus de 64GB de RAM système
Système : Linux + CUDA 12.8

Plan open source

Hunyuan Image 3.0 fournit une solution complète open source, incluant :

Le code d'inférence et les poids du modèle
La version de base HunyuanImage-3.0
La version HunyuanImage-3.0-Instruct (prend en charge les capacités de raisonnement)
À l'avenir, prendra en charge la génération d'image à image, l'interaction multipassage et d'autres fonctionnalités

Licence open source

Hunyuan Image 3.0 utilise la licence open source Tencent Hunyuan Community License Agreement. Cette licence permet :

L'utilisation, la copie, la distribution et la modification gratuites du modèle par les particuliers et les entreprises
Prend en charge l'utilisation commerciale et le développement d'œuvres dérivées
Autorise la fourniture de services hébergés via des API ou d'autres moyens

Restrictions importantes

Restrictions géographiques : Cette licence ne s'applique pas aux régions de l'UE, du Royaume-Uni et de la Corée du Sud
Limitations d'échelle d'utilisateurs : Si votre produit ou service compte plus de 100 millions d'utilisateurs actifs mensuels, vous devez demander à Tencent un permis supplémentaire
Restrictions d'utilisation : Interdit d'utiliser les sorties du modèle pour améliorer d'autres modèles d'IA (sauf pour la série Hunyuan)
Exigences de conformité : Doit respecter les lois et réglementations des différents pays et les politiques d'utilisation acceptables

Liens connexes

Site officiel : https://hunyuan.tencent.com/image
Dépôt GitHub : https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
Modèle HuggingFace : https://huggingface.co/tencent/HunyuanImage-3.0
Rapport technique : Rapport technique HunyuanImage 3.0