CLIP Text Encode Hunyuan DiT

Обзор узла CLIP Text Encode Hunyuan DiT в ComfyUI

Основные функции узла CLIPTextEncodeHunyuanDiT:

Токенизация: Преобразование входного текста в последовательности токенов, которые могут быть обработаны моделью.
Кодирование: Использование модели CLIP для кодирования последовательностей токенов в условные кодировки.

Этот узел можно рассматривать как “языковой переводчик”, который преобразует пользовательский ввод текста (будь то английский или другие языки) в “машинный язык”, который могут понять модели ИИ, позволяя модели генерировать соответствующий контент на основе этих условий.

Название класса

Название класса: CLIPTextEncodeHunyuanDiT
Категория: advanced/conditioning
Выходной узел: False

Типы входных данных CLIP Text Encode Hunyuan DiT

Параметр	Тип данных Comfy	Описание
`clip`	`CLIP`	Экземпляр модели CLIP для токенизации и кодирования текста, ключевой для генерации условий.
`bert`	`STRING`	Текстовый ввод для кодирования, поддерживает многострочный ввод и динамические подсказки.
`mt5xl`	`STRING`	Другой текстовый ввод для кодирования, поддерживает многострочный ввод и динамические подсказки (многоязычный).

Параметр bert: Подходит для ввода английского текста. Рекомендуется вводить краткий текст с контекстом, чтобы помочь узлу генерировать более точные и значимые представления токенов.
Параметр mt5xl: Подходит для многоязычного ввода текста. Вы можете вводить текст на любом языке, чтобы помочь модели понимать многоязычные задачи.

Типы выходных данных CLIP Text Encode Hunyuan DiT

Параметр	Тип данных Comfy	Описание
`conditioning`	`CONDITIONING`	Закодированный условный вывод для дальнейшей обработки в задачах генерации.

Методы

Метод кодирования: encode

Этот метод принимает clip, bert и mt5xl в качестве параметров. Сначала он токенизирует bert, затем токенизирует mt5xl и сохраняет результаты в словаре tokens. Наконец, он использует метод clip.encode_from_tokens_scheduled для кодирования токенизированных токенов в условия.

Примеры использования

Будет обновлено

Расширенное содержание для узла CLIP Text Encode Hunyuan DiT

BERT (Bidirectional Encoder Representations from Transformers)

BERT - это двунаправленная языковая модель представления, основанная на архитектуре Transformer.

Она изучает богатую контекстную информацию через предварительное обучение на больших объемах текстовых данных, а затем дообучается на последующих задачах для достижения высокой производительности.

Ключевые особенности:

Двунаправленность: BERT одновременно учитывает как левую, так и правую контекстную информацию, что позволяет лучше понимать значения слов.
Предварительное обучение и дообучение: Через задачи предварительного обучения (такие как Masked Language Model и Next Sentence Prediction) BERT может быть быстро дообучен для различных последующих задач.

Сценарии применения:

Классификация текста
Распознавание именованных сущностей
Системы вопросов и ответов

mT5-XL (Multilingual Text-to-Text Transfer Transformer)

mT5-XL - это многоязычная версия модели T5, использующая архитектуру кодировщик-декодировщик, которая поддерживает обработку нескольких языков.

Она унифицирует все задачи NLP как преобразования текст-в-текст, способная обрабатывать различные задачи, включая перевод, суммирование и ответы на вопросы.

Ключевые особенности:

Многоязычная поддержка: mT5-XL поддерживает обработку до 101 языка.
Унифицированное представление задач: Преобразование всех задач в формат текст-в-текст, упрощая конвейер обработки задач.

Сценарии применения:

Машинный перевод
Суммирование текста
Системы вопросов и ответов

Научные статьи по BERT и mT5-XL

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- Описание: Эта основополагающая статья представляет BERT, модель на основе трансформеров, которая достигает передовых результатов на широком спектре задач NLP.
mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer
- Описание: Эта статья представляет mT5, многоязычный вариант T5, обученный на новом наборе данных на основе Common Crawl, охватывающем 101 язык.
mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences
- Описание: Эта работа разрабатывает mLongT5, многоязычную модель, предназначенную для эффективной обработки более длинных входных последовательностей.
Bridging Linguistic Barriers: Inside Google’s mT5 Multilingual Technology
- Описание: Статья, обсуждающая возможности и применения модели mT5 от Google в многоязычных задачах NLP.
BERT-related Papers
- Описание: Кураторский список научных статей, связанных с BERT, включая обзоры, последующие задачи и модификации.

Исходный код

Версия ComfyUI: v0.3.10
2025-01-07

class CLIPTextEncodeHunyuanDiT:
    @classmethod
    def INPUT_TYPES(s):
        return {"required": {
            "clip": ("CLIP", ),
            "bert": ("STRING", {"multiline": True, "dynamicPrompts": True}),
            "mt5xl": ("STRING", {"multiline": True, "dynamicPrompts": True}),
            }}
    RETURN_TYPES = ("CONDITIONING",)
    FUNCTION = "encode"
 
    CATEGORY = "advanced/conditioning"
 
    def encode(self, clip, bert, mt5xl):
        tokens = clip.tokenize(bert)
        tokens["mt5xl"] = clip.tokenize(mt5xl)["mt5xl"]
 
        return (clip.encode_from_tokens_scheduled(tokens), )

CLIP Text Encode SDXL Refiner Conditioning Set Timestep Range