ComfyUI 用語集 | ComfyUI Wiki

CLIP

CLIP (Contrastive Language-Image Pretraining) は、OpenAIによって開発されたモデルで、画像とテキスト情報を結びつけます。画像とテキストの関係を理解し、画像生成、画像の説明、または画像分類タスクを支援します。

diffusion model

diffusion model は、データに徐々にノイズを加え、そのノイズを除去するようにモデルを訓練してデータを生成する生成モデルです。画像やその他のデータを生成する強力な能力を示しています。diffusion model の訓練プロセスには、ノイズを加える順方向プロセスとノイズを除去する逆方向プロセスが含まれます。

denoise

denoise は、ノイズのある画像やデータから明確な情報を回復するプロセスを指します。diffusion model では、denoise はモデルがノイズを徐々に減少させてデータを復元し、生成された画像を実際の画像にできるだけ近づけることを含みます。

Latent

Latent は、生成モデルでデータを表現するために使用される隠れた表現または特徴を指します。これは、エンコーダーを通じて得られるデータ（例：画像）の抽象的で低次元の表現であり、データの核心的な特性を捉えます。

Latent space

Latent space は、データの潜在的な特徴を表現するために使用される高次元空間です。生成モデルでは、データは最初に潜在空間にマッピングされ、その後デコーダーを通じて潜在空間から新しいデータが生成されます。潜在空間の特性により、モデルは多様で複雑なデータサンプルを生成することができます。

VAE

VAE (Variational Autoencoder) は、エンコーダーとデコーダーを通じてデータの潜在表現を学習するために設計された生成モデルです。エンコーダーは入力データを潜在空間にマッピングし、デコーダーは潜在表現から新しいデータを生成します。VAE の目標は、データの尤度を最大化しながら、潜在空間分布と事前定義された分布との間の乖離を最小化することです。

CLIP

diffusion model

denoise

Latent

Latent space

VAE

コメント