Skip to content
Aidez ComfyUI Wiki à supprimer les publicités Devenir un Mécène
Manuel des NœudsAdvancedconditioningCLIP Text Encode Hunyuan DiT

CLIP Text Encode Hunyuan DiT

CLIP Text Encode Hunyuan DiT

Aperçu du nœud CLIP Text Encode Hunyuan DiT ComfyUI

Les principales fonctions du nœud CLIPTextEncodeHunyuanDiT sont :

  • Tokenization : Conversion du texte d’entrée en séquences de tokens pouvant être traitées par le modèle.
  • Encodage : Utilisation du modèle CLIP pour encoder les séquences de tokens en encodages conditionnels.

Ce nœud peut être considéré comme un “traducteur de langage” qui convertit le texte d’entrée de l’utilisateur (en anglais ou dans d’autres langues) en “langage machine” que les modèles d’IA peuvent comprendre, permettant au modèle de générer du contenu correspondant basé sur ces conditions.

Nom de la Classe

  • Nom de la Classe : CLIPTextEncodeHunyuanDiT
  • Catégorie : advanced/conditioning
  • Nœud de Sortie : False

Types d’Entrée de CLIP Text Encode Hunyuan DiT

ParamètreType de Données ComfyDescription
clipCLIPUne instance du modèle CLIP pour la tokenization et l’encodage de texte, essentielle pour générer des conditions.
bertSTRINGEntrée de texte pour l’encodage, prend en charge les prompts multiligne et dynamiques.
mt5xlSTRINGAutre entrée de texte pour l’encodage, prend en charge les prompts multiligne et dynamiques (multilingue).
  • Paramètre bert : Adapté à l’entrée de texte en anglais. Il est recommandé d’entrer un texte concis avec contexte pour aider le nœud à générer des représentations de tokens plus précises et significatives.
  • Paramètre mt5xl : Adapté à l’entrée de texte multilingue. Vous pouvez entrer du texte dans n’importe quelle langue pour aider le modèle à comprendre les tâches multilingues.

Types de Sortie de CLIP Text Encode Hunyuan DiT

ParamètreType de Données ComfyDescription
conditioningCONDITIONINGSortie conditionnelle encodée pour un traitement ultérieur dans les tâches de génération.

Méthodes

  • Méthode d’Encodage : encode

    Cette méthode accepte clip, bert et mt5xl comme paramètres. D’abord, elle tokenize bert, puis tokenize mt5xl, et stocke les résultats dans un dictionnaire tokens. Enfin, elle utilise la méthode clip.encode_from_tokens_scheduled pour encoder les tokens en conditions.

Exemples d’Utilisation

  • À mettre à jour

Contenu Étendu pour le Nœud CLIP Text Encode Hunyuan DiT

BERT (Bidirectional Encoder Representations from Transformers)

BERT est un modèle de représentation du langage bidirectionnel basé sur l’architecture Transformer.

Il apprend des informations contextuelles riches grâce au pré-entraînement sur de grandes quantités de données textuelles, puis s’affine sur des tâches en aval pour atteindre des performances élevées.

Caractéristiques Principales :

  • Bidirectionnalité : BERT considère simultanément les informations contextuelles gauche et droite, permettant une meilleure compréhension du sens des mots.

  • Pré-entraînement et Affinage : Grâce aux tâches de pré-entraînement (comme le Masked Language Model et la Next Sentence Prediction), BERT peut être rapidement affiné pour diverses tâches en aval.

Scénarios d’Application :

  • Classification de Texte

  • Reconnaissance d’Entités Nommées

  • Systèmes de Questions-Réponses

mT5-XL (Multilingual Text-to-Text Transfer Transformer)

mT5-XL est la version multilingue du modèle T5, utilisant une architecture encodeur-décodeur qui prend en charge le traitement de plusieurs langues.

Il unifie toutes les tâches NLP en transformations texte-à-texte, capable de gérer diverses tâches incluant la traduction, le résumé et les questions-réponses.

Caractéristiques Principales :

  • Support Multilingue : mT5-XL prend en charge le traitement de jusqu’à 101 langues.

  • Représentation Unifiée des Tâches : Conversion de toutes les tâches au format texte-à-texte, simplifiant le pipeline de traitement des tâches.

Scénarios d’Application :

  • Traduction Automatique

  • Résumé de Texte

  • Systèmes de Questions-Réponses

Articles de Recherche sur BERT et mT5-XL

  1. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    • Description : Cet article fondamental présente BERT, un modèle basé sur les transformers qui obtient des résultats état de l’art sur un large éventail de tâches NLP.
  2. mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer

    • Description : Cet article présente mT5, une variante multilingue de T5, entraînée sur un nouveau jeu de données basé sur Common Crawl couvrant 101 langues.
  3. mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences

    • Description : Ce travail développe mLongT5, un modèle multilingue conçu pour gérer efficacement les séquences d’entrée plus longues.
  4. Bridging Linguistic Barriers: Inside Google’s mT5 Multilingual Technology

    • Description : Un article discutant des capacités et applications du modèle mT5 de Google dans les tâches NLP multilingues.
  5. BERT-related Papers

    • Description : Une liste organisée d’articles de recherche liés à BERT, incluant des études, des tâches en aval et des modifications.

Code Source

  • Version ComfyUI : v0.3.10
  • 2025-01-07
class CLIPTextEncodeHunyuanDiT:
    @classmethod
    def INPUT_TYPES(s):
        return {"required": {
            "clip": ("CLIP", ),
            "bert": ("STRING", {"multiline": True, "dynamicPrompts": True}),
            "mt5xl": ("STRING", {"multiline": True, "dynamicPrompts": True}),
            }}
    RETURN_TYPES = ("CONDITIONING",)
    FUNCTION = "encode"
 
    CATEGORY = "advanced/conditioning"
 
    def encode(self, clip, bert, mt5xl):
        tokens = clip.tokenize(bert)
        tokens["mt5xl"] = clip.tokenize(mt5xl)["mt5xl"]
 
        return (clip.encode_from_tokens_scheduled(tokens), )