Skip to content
ComfyUI Wiki가 광고를 제거하도록 도와주세요 후원자 되기
노드AdvancedconditioningCLIP Text Encode Hunyuan DiT

CLIP Text Encode Hunyuan DiT

CLIP Text Encode Hunyuan DiT

CLIP Text Encode Hunyuan DiT ComfyUI 노드 개요

CLIPTextEncodeHunyuanDiT 노드의 주요 기능은 다음과 같습니다:

  • 토큰화: 입력 텍스트를 모델이 처리할 수 있는 토큰 시퀀스로 변환합니다.
  • 인코딩: CLIP 모델을 사용하여 토큰 시퀀스를 조건부 인코딩으로 변환합니다.

이 노드는 사용자가 입력한 텍스트(영어 또는 다른 언어)를 AI 모델이 이해할 수 있는 “기계어”로 변환하는 “언어 번역기”로 볼 수 있으며, 이러한 조건을 기반으로 해당 콘텐츠를 생성할 수 있습니다.

클래스명

  • 클래스명: CLIPTextEncodeHunyuanDiT
  • 카테고리: advanced/conditioning
  • 출력 노드: False

CLIP Text Encode Hunyuan DiT 입력 유형

매개변수Comfy 데이터 유형설명
clipCLIP텍스트 토큰화 및 인코딩을 위한 CLIP 모델 인스턴스로, 조건 생성의 핵심입니다.
bertSTRING인코딩할 텍스트 입력으로, 여러 줄과 동적 프롬프트를 지원합니다.
mt5xlSTRING다국어 처리를 위한 또 다른 텍스트 입력으로, 여러 줄과 동적 프롬프트를 지원합니다.
  • bert 매개변수: 영어 텍스트 입력에 적합하며, 노드가 더 정확하고 의미 있는 토큰 표현을 생성하도록 문맥이 있는 간결한 텍스트를 입력하는 것이 좋습니다.
  • mt5xl 매개변수: 다국어 텍스트 입력에 적합하며, 모델이 다국어 작업을 이해하는 데 도움이 되도록 모든 언어로 텍스트를 입력할 수 있습니다.

CLIP Text Encode Hunyuan DiT 출력 유형

매개변수Comfy 데이터 유형설명
conditioningCONDITIONING생성 작업에서 추가 처리를 위한 인코딩된 조건부 출력입니다.

메서드

  • 인코딩 메서드: encode

    이 메서드는 clip, bert, mt5xl을 매개변수로 받습니다. 먼저 bert를 토큰화하고, 그 다음 mt5xl을 토큰화하여 결과를 tokens 딕셔너리에 저장합니다. 마지막으로 clip.encode_from_tokens_scheduled 메서드를 사용하여 토큰을 조건으로 인코딩합니다.

사용 예시

  • 업데이트 예정

CLIP Text Encode Hunyuan DiT 노드 관련 확장 내용

BERT (Bidirectional Encoder Representations from Transformers)

BERT는 Transformer 아키텍처를 기반으로 한 양방향 언어 표현 모델입니다.

대량의 텍스트 데이터에 대한 사전 학습을 통해 풍부한 문맥 정보를 학습하고, 다운스트림 작업에서 미세 조정하여 높은 성능을 달성합니다.

주요 특징:

  • 양방향성: BERT는 텍스트의 좌우 문맥 정보를 동시에 고려하여 단어의 의미를 더 잘 이해합니다.

  • 사전 학습 및 미세 조정: Masked Language Model과 Next Sentence Prediction과 같은 사전 학습 작업을 통해 다양한 다운스트림 작업에서 빠르게 미세 조정할 수 있습니다.

적용 분야:

  • 텍스트 분류

  • 개체명 인식

  • 질의응답 시스템

mT5-XL (Multilingual Text-to-Text Transfer Transformer)

mT5-XL은 T5 모델의 다국어 버전으로, 여러 언어 처리를 지원하는 인코더-디코더 아키텍처를 사용합니다.

모든 NLP 작업을 텍스트 간 변환으로 통합하여 번역, 요약, 질의응답 등 다양한 작업을 처리할 수 있습니다.

주요 특징:

  • 다국어 지원: mT5-XL은 최대 101개 언어의 처리를 지원합니다.

  • 통합 작업 표현: 모든 작업을 텍스트 간 형식으로 변환하여 작업 처리 파이프라인을 단순화합니다.

적용 분야:

  • 기계 번역

  • 텍스트 요약

  • 질의응답 시스템

BERT and mT5-XL Research Papers

  1. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    • 설명: 이 기초 논문은 광범위한 NLP 작업에서 최첨단 결과를 달성하는 트랜스포머 기반 모델인 BERT를 소개합니다.
  2. mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer

    • 설명: 이 논문은 101개 언어를 포함하는 새로운 Common Crawl 기반 데이터셋으로 학습된 T5의 다국어 변형인 mT5를 소개합니다.
  3. mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences

    • 설명: 이 연구는 더 긴 입력 시퀀스를 효율적으로 처리하도록 설계된 다국어 모델인 mLongT5를 개발합니다.
  4. Bridging Linguistic Barriers: Inside Google’s mT5 Multilingual Technology

    • 설명: Google의 mT5 모델의 다국어 NLP 작업에서의 기능과 응용에 대해 논의하는 글입니다.
  5. BERT-related Papers

    • 설명: 조사, 다운스트림 작업, 수정 사항을 포함한 BERT 관련 연구 논문의 큐레이션 목록입니다.

소스 코드

  • ComfyUI 버전: v0.3.10
  • 2025-01-07
class CLIPTextEncodeHunyuanDiT:
    @classmethod
    def INPUT_TYPES(s):
        return {"required": {
            "clip": ("CLIP", ),
            "bert": ("STRING", {"multiline": True, "dynamicPrompts": True}),
            "mt5xl": ("STRING", {"multiline": True, "dynamicPrompts": True}),
            }}
    RETURN_TYPES = ("CONDITIONING",)
    FUNCTION = "encode"
 
    CATEGORY = "advanced/conditioning"
 
    def encode(self, clip, bert, mt5xl):
        tokens = clip.tokenize(bert)
        tokens["mt5xl"] = clip.tokenize(mt5xl)["mt5xl"]
 
        return (clip.encode_from_tokens_scheduled(tokens), )