Glossaire ComfyUI | ComfyUI Wiki

CLIP

CLIP (Contrastive Language-Image Pretraining) est un modèle développé par OpenAI qui relie les informations d'image et de texte. Il peut comprendre la relation entre les images et le texte, aidant à générer des images, décrire des images ou effectuer des tâches de classification d'images.

modèle de diffusion

Un modèle de diffusion est un modèle génératif qui ajoute progressivement du bruit aux données, puis entraîne un modèle pour éliminer le bruit afin de générer des données. Il a montré de fortes capacités dans la génération d'images et d'autres types de données. Le processus d'entraînement des modèles de diffusion comprend un processus direct (ajout de bruit) et un processus inverse (élimination du bruit).

débruitage

Le débruitage fait référence au processus de récupération d'informations claires à partir d'images ou de données bruitées. Dans les modèles de diffusion, le débruitage implique que le modèle réduise progressivement le bruit pour restaurer les données, rendant les images générées aussi proches que possible des images réelles.

Latent

Latent se réfère à la représentation cachée ou aux caractéristiques utilisées pour représenter les données dans les modèles génératifs. C'est une représentation abstraite et de faible dimension des données (par exemple, des images) obtenue par un encodeur, capturant les caractéristiques essentielles des données.

espace latent

L'espace latent est un espace de haute dimension utilisé pour représenter les caractéristiques latentes des données. Dans les modèles génératifs, les données sont d'abord mappées dans l'espace latent, puis de nouvelles données sont générées à partir de l'espace latent via un décodeur. Les caractéristiques de l'espace latent permettent au modèle de générer une variété d'échantillons de données complexes.

VAE

VAE (Variational Autoencoder) est un modèle génératif conçu pour apprendre la représentation latente des données via un encodeur et un décodeur. L'encodeur mappe les données d'entrée dans l'espace latent, tandis que le décodeur génère de nouvelles données à partir des représentations latentes. L'objectif d'un VAE est de maximiser la vraisemblance des données tout en minimisant la divergence entre la distribution de l'espace latent et la distribution prédéfinie.

CLIP

modèle de diffusion

débruitage

Latent

espace latent

VAE

Commentaires