ComfyUI 용어집 | ComfyUI Wiki

CLIP

CLIP (Contrastive Language-Image Pretraining)는 OpenAI에서 개발한 모델로, 이미지와 텍스트 정보를 연결합니다. 이는 이미지와 텍스트 간의 관계를 이해하여 이미지를 생성하거나, 이미지를 설명하거나, 이미지 분류 작업을 수행하는 데 도움을 줍니다.

diffusion model

Diffusion model은 데이터에 점진적으로 노이즈를 추가하고, 그 노이즈를 제거하여 데이터를 생성하는 모델을 훈련하는 생성 모델입니다. 이는 이미지 및 기타 유형의 데이터를 생성하는 데 강력한 능력을 보여줍니다. Diffusion model의 훈련 과정은 전방 과정(노이즈 추가)과 역방향 과정(노이즈 제거)을 포함합니다.

denoise

Denoise는 노이즈가 있는 이미지나 데이터에서 명확한 정보를 복구하는 과정을 말합니다. Diffusion model에서 denoise는 모델이 점진적으로 노이즈를 줄여 데이터를 복원하여 생성된 이미지가 실제 이미지에 최대한 가깝도록 하는 것을 포함합니다.

Latent

Latent는 생성 모델에서 데이터를 나타내는 데 사용되는 숨겨진 표현 또는 특징을 의미합니다. 이는 인코더를 통해 얻은 데이터(예: 이미지)의 추상적이고 저차원적인 표현으로, 데이터의 핵심 특성을 포착합니다.

Latent space

Latent space는 데이터의 잠재 특징을 나타내는 데 사용되는 고차원 공간입니다. 생성 모델에서 데이터는 먼저 Latent space로 매핑되고, 그 후 디코더를 통해 Latent space에서 새로운 데이터가 생성됩니다. Latent space의 특성은 모델이 다양한 복잡한 데이터 샘플을 생성할 수 있도록 합니다.

VAE

VAE (Variational Autoencoder)는 인코더와 디코더를 통해 데이터의 잠재 표현을 학습하도록 설계된 생성 모델입니다. 인코더는 입력 데이터를 Latent space로 매핑하고, 디코더는 잠재 표현에서 새로운 데이터를 생성합니다. VAE의 목표는 데이터의 가능성을 최대화하면서 Latent space 분포와 사전 정의된 분포 간의 차이를 최소화하는 것입니다.