术语表
CLIP
CLIP(Contrastive Language-Image Pretraining)是一种由OpenAI开发的模型,用于将图像和文本信息联系起来。它可以理解图像和文本之间的关系,从而帮助生成图像、描述图像或进行图像分类等任务。
diffusion model 扩散模型
扩散模型是一种生成模型,通过逐渐添加噪声到数据中,然后训练模型以去除噪声,从而生成数据。它在生成图像和其他类型的数据中显示出很强的能力。扩散模型的训练过程包括一个前向过程(添加噪声)和一个反向过程(去除噪声)。
denoise 降噪
降噪是指从带有噪声的图像或数据中恢复出清晰的信息。在扩散模型中,降噪指的是模型通过逐步减少噪声来恢复数据的过程,使生成的图像尽可能接近真实图像。
Latent 潜像
潜像指的是在生成模型中,用于表示数据的隐含表示或特征。它是通过编码器将数据(例如图像)转换为一种低维的、抽象的表示,这种表示包含了数据的核心特征。
Latent space 潜空间
潜空间是一个高维空间,用于表示数据的潜在特征。在生成模型中,数据首先被映射到潜空间中,然后通过解码器从潜空间中生成新数据。潜空间的特性使得模型能够生成各种复杂的数据样本。
VAE
VAE(Variational Autoencoder)是一种生成模型,旨在通过编码器和解码器来学习数据的潜在表示。编码器将输入数据映射到潜空间,解码器则从潜空间中的潜像生成新的数据。VAE的目标是最大化数据的对数似然函数,同时最小化潜空间的分布与预设分布之间的差距。