變分自編碼器 (VAE)

一種生成式神經網路,將資料壓縮成機率分布的潛在空間,再從中取樣生成新樣本。

變分自編碼器(VAE)是 Kingma 與 Welling 在 2013 年提出的生成模型。它和一般 autoencoder 一樣,有一個 encoder 把資料壓縮成較小的「潛在表示」,再由 decoder 還原。差別在於:VAE 不是編碼成一個固定向量,而是編碼成一個機率分布(通常是學到平均值與變異數的高斯分布),取樣後再解碼。這個機率化的設計讓潛在空間變得平滑且連續。你可以從分布中隨意取樣一點,decoder 都能解出合理的新樣本,因此 VAE 是真正的生成模型,而非單純的壓縮器。訓練目標結合了重建損失與 KL divergence,後者讓潛在分布貼近標準常態分布。打個比方:一般 autoencoder 像是把每張照片背成地圖上的固定座標;VAE 則是學會地圖上「相似照片所在的區域」,所以隨意挑一點解碼,仍會得到合理的照片。VAE 過去廣泛用於人臉、數字生成、分子設計與異常偵測,雖然影像生成領域已被 diffusion model 取代,但它仍活在許多系統裡——例如 Stable Diffusion 中就用 VAE 把影像壓進實際跑擴散過程的潛在空間。延伸閱讀:autoencoder、latent space、GAN、diffusion model、KL divergence、latent diffusion。