擴散模型 (Diffusion Model)

一種生成模型,透過學會「逐步去除雜訊」的過程,把隨機噪點還原成圖像或其他資料。

擴散模型是一種生成模型,主要用來生成圖像(也能生成影片、音訊、3D 資料等)。它的核心概念很反直覺:訓練時,先把乾淨圖像逐步加入隨機雜訊,直到整張圖變成純噪點;模型則學習「如何一步一步把雜訊去掉」。生成時就反過來——從一團隨機噪點開始,讓模型一步步去噪,最後還原出一張全新的圖像。目前你聽過的圖像生成工具幾乎都是擴散模型,例如 Stable Diffusion、Midjourney、DALL·E 3、Google Imagen,以及 Sora、Runway 這類影片生成工具。它取代了過去主流的 GAN,因為訓練更穩定、產出更多樣,而且很吃得下大量資料與算力。可以這樣想像:把一張照片慢慢撒上沙子直到看不見原圖,擴散模型學的就是「給我一張被沙子蓋住的照片,猜出底下原本是什麼」。重複幾百次,就能從一堆沙子裡「召喚」出一張照片。要控制生成內容,只要在去噪過程中加入文字提示(透過 CLIP 等文字編碼器),模型就會朝向符合描述的方向還原。延伸閱讀:latent diffusion(Stable Diffusion 加速的關鍵)、DDPM/DDIM 取樣演算法、classifier-free guidance、U-Net、flow matching。