High-Resolution Image Synthesis with Latent Diffusion Models（基于潜在扩散模型的高分辨率图像合成）

Introduction

作者指出传统的扩散模型作用在图像的像素空间，这将带来非常庞大的计算量。作者将扩散模型应用在了图像的浅空间中，并且引入了交叉引入交叉注意力层用于文本等一般条件输入。

Image Compression

作者选用的是autoencoder

Latent Diffusion Models

作者首先介绍了扩散模型，潜在扩散模型就是作用于低维的潜在空间。

在下图中，Pixel Space是像素空间，Lantent Space是潜在空间，Conditioning是条件输入。像素空间X经过压缩操作得到Z，将Z进行扩散模型前向传播就有了ZT，如果有条件输入，在Conditioning中将条件输入投影为T，将ZT和Tconcat送进U-net学习噪声，得到ZT-1的潜在空间，然后继续反向，直到得到Z0，最终Z0解码生成新的X。

Conditioning Mechanisms

先把条件输入投影到中间表示T，在U-net的跳跃连接引入了交叉注意力机制，KV来自条件输入，Q来自潜空间。

Latent Diffusion Models

LDM阅读

High-Resolution Image Synthesis with Latent Diffusion Models（基于潜在扩散模型的高分辨率图像合成）

Introduction

Image Compression

Latent Diffusion Models

Conditioning Mechanisms

相关知识

U-net

U-net++

CATALOG

FEATURED TAGS

FRIENDS