术语表

CLIP

CLIP（Contrastive Language-Image Pretraining）是一种由OpenAI开发的模型，用于将图像和文本信息联系起来。它可以理解图像和文本之间的关系，从而帮助生成图像、描述图像或进行图像分类等任务。

扩散模型是一种生成模型，通过逐渐添加噪声到数据中，然后训练模型以去除噪声，从而生成数据。它在生成图像和其他类型的数据中显示出很强的能力。扩散模型的训练过程包括一个前向过程（添加噪声）和一个反向过程（去除噪声）。

降噪是指从带有噪声的图像或数据中恢复出清晰的信息。在扩散模型中，降噪指的是模型通过逐步减少噪声来恢复数据的过程，使生成的图像尽可能接近真实图像。

潜像指的是在生成模型中，用于表示数据的隐含表示或特征。它是通过编码器将数据（例如图像）转换为一种低维的、抽象的表示，这种表示包含了数据的核心特征。

潜空间是一个高维空间，用于表示数据的潜在特征。在生成模型中，数据首先被映射到潜空间中，然后通过解码器从潜空间中生成新数据。潜空间的特性使得模型能够生成各种复杂的数据样本。

VAE（Variational Autoencoder）是一种生成模型，旨在通过编码器和解码器来学习数据的潜在表示。编码器将输入数据映射到潜空间，解码器则从潜空间中的潜像生成新的数据。VAE的目标是最大化数据的对数似然函数，同时最小化潜空间的分布与预设分布之间的差距。