变分自编码器 (VAE)

一种生成式神经网络,将数据压缩成概率分布的潜在空间,再从中采样生成新样本。

变分自编码器(VAE)是 Kingma 与 Welling 在 2013 年提出的生成模型。它和普通 autoencoder 一样,有一个 encoder 把数据压缩成较小的「潜在表示」,再由 decoder 还原。差别在于:VAE 不是编码成固定向量,而是编码成一个概率分布(通常是学到均值和方差的高斯分布),采样后再解码。这种概率化的设计让潜在空间变得平滑且连续。你可以从分布中随便采样一点,decoder 都能解出合理的新样本,因此 VAE 是真正的生成模型,而不只是压缩器。训练目标结合了重建损失与 KL 散度,后者让潜在分布贴近标准正态分布。打个比方:普通 autoencoder 像是把每张照片背成地图上的固定坐标;VAE 则是学会地图上「相似照片所在的区域」,所以随便挑一点解码,仍能得到合理的照片。VAE 过去广泛用于人脸、数字生成、分子设计与异常检测,虽然图像生成领域已被 diffusion model 取代,但它仍活在许多系统里——例如 Stable Diffusion 就用 VAE 把图像压进实际跑扩散过程的潜在空间。延伸阅读:autoencoder、latent space、GAN、diffusion model、KL 散度、latent diffusion。