CLIP Text Encode Hunyuan DiT

CLIP Text Encode Hunyuan DiT ComfyUIノードの概要

CLIPTextEncodeHunyuanDiTノードの主な機能は以下の通りです：

トークン化：入力テキストをモデルが処理可能なトークン列に変換します。
エンコーディング：CLIPモデルを使用してトークン列を条件付きエンコーディングに変換します。

このノードは、ユーザーが入力したテキスト（英語やその他の言語）をAIモデルが理解できる「機械言語」に変換する「言語翻訳機」として機能し、これらの条件に基づいて対応するコンテンツを生成することができます。

クラス名

クラス名: CLIPTextEncodeHunyuanDiT
カテゴリ: advanced/conditioning
出力ノード: False

CLIP Text Encode Hunyuan DiT 入力タイプ

パラメータ	Comfyデータ型	説明
`clip`	`CLIP`	テキストのトークン化とエンコーディングのためのCLIPモデルインスタンス。条件生成に不可欠です。
`bert`	`STRING`	エンコーディング用のテキスト入力。複数行と動的プロンプトをサポートします。
`mt5xl`	`STRING`	エンコーディング用の別のテキスト入力。複数行と動的プロンプト（多言語）をサポートします。

bertパラメータ：英語テキスト入力に適しています。より正確で意味のあるトークン表現を生成するために、コンテキストを含む簡潔なテキストの入力を推奨します。
mt5xlパラメータ：多言語テキスト入力に適しています。モデルが多言語タスクを理解するために、任意の言語でテキストを入力できます。

CLIP Text Encode Hunyuan DiT 出力タイプ

パラメータ	Comfyデータ型	説明
`conditioning`	`CONDITIONING`	生成タスクでの後続処理のためのエンコードされた条件出力。

メソッド

エンコードメソッド: encode

このメソッドはclip、bert、mt5xlをパラメータとして受け取ります。まずbertをトークン化し、次にmt5xlをトークン化して、結果をtokensディクショナリに格納します。最後に、clip.encode_from_tokens_scheduledメソッドを使用してトークンを条件にエンコードします。

使用例

更新予定

CLIP Text Encode Hunyuan DiT ノードの拡張コンテンツ

BERT（Bidirectional Encoder Representations from Transformers）

BERTはTransformerアーキテクチャに基づく双方向言語表現モデルです。

大量のテキストデータでの事前学習を通じて豊富なコンテキスト情報を学習し、その後ダウンストリームタスクで微調整して高性能を実現します。

主な特徴：

双方向性：BERTは左右のコンテキスト情報を同時に考慮し、単語の意味をより良く理解します。
事前学習と微調整：事前学習タスク（Masked Language ModelやNext Sentence Prediction）を通じて、様々なダウンストリームタスクで迅速に微調整できます。

適用シナリオ：

テキスト分類
固有表現認識
質問応答システム

mT5-XL（Multilingual Text-to-Text Transfer Transformer）

mT5-XLはT5モデルの多言語バージョンで、複数の言語処理をサポートするエンコーダ-デコーダアーキテクチャを採用しています。

すべてのNLPタスクをテキストからテキストへの変換として統一し、翻訳、要約、質問応答など様々なタスクを処理できます。

主な特徴：

多言語サポート：mT5-XLは101言語の処理をサポートします。
統一タスク表現：すべてのタスクをテキストからテキストの形式に変換し、タスク処理のパイプラインを簡素化します。

適用シナリオ：

機械翻訳
テキスト要約
質問応答システム

BERT and mT5-XL Research Papers

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- 説明: この基礎的な論文は、幅広いNLPタスクで最先端の結果を達成するトランスフォーマーベースのモデルBERTを紹介しています。
mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer
- 説明: この論文は、101言語をカバーする新しいCommon Crawlベースのデータセットで訓練された、T5の多言語バリアントであるmT5を紹介しています。
mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences
- 説明: この研究は、より長い入力シーケンスを効率的に処理するように設計された多言語モデルmLongT5を開発しています。
Bridging Linguistic Barriers: Inside Google’s mT5 Multilingual Technology
- 説明: GoogleのmT5モデルの多言語NLPタスクにおける機能と応用について議論する記事です。
BERT-related Papers
- 説明: BERTに関連する研究論文のキュレーションリストで、調査、ダウンストリームタスク、改良などが含まれています。

ソースコード

ComfyUI バージョン: v0.3.10
2025-01-07

class CLIPTextEncodeHunyuanDiT:
    @classmethod
    def INPUT_TYPES(s):
        return {"required": {
            "clip": ("CLIP", ),
            "bert": ("STRING", {"multiline": True, "dynamicPrompts": True}),
            "mt5xl": ("STRING", {"multiline": True, "dynamicPrompts": True}),
            }}
    RETURN_TYPES = ("CONDITIONING",)
    FUNCTION = "encode"
 
    CATEGORY = "advanced/conditioning"
 
    def encode(self, clip, bert, mt5xl):
        tokens = clip.tokenize(bert)
        tokens["mt5xl"] = clip.tokenize(mt5xl)["mt5xl"]
 
        return (clip.encode_from_tokens_scheduled(tokens), )

CLIP Text Encode SDXL Refiner（CLIPテキストエンコードSDXLリファイナー）Conditioning Set Timestep Range