扩散模型是一种生成模型,主要用来生成图像(也能生成视频、音频、3D 数据等)。它的核心思路很反直觉:训练时,先把干净图像逐步加入随机噪声,直到整张图变成纯噪点;模型则学习"如何一步一步把噪声去掉"。生成时就反过来——从一团随机噪点开始,让模型一步步去噪,最后还原出一张全新的图像。 现在你听过的图像生成工具几乎都是扩散模型,比如 Stable Diffusion、Midjourney、DALL·E 3、Google Imagen,以及 Sora、Runway 这类视频生成工具。它取代了过去主流的 GAN,因为训练更稳定、产出更多样,而且很能吃下大量数据和算力。 可以这样想象:把一张照片慢慢撒上沙子直到看不见原图,扩散模型学的就是"给我一张被沙子盖住的照片,猜出底下原本是什么"。重复几百次,就能从一堆沙子里"召唤"出一张照片。要控制生成内容,只要在去噪过程中加入文字提示(通过 CLIP 等文本编码器),模型就会朝着符合描述的方向还原。 延伸阅读:latent diffusion(Stable Diffusion 加速的关键)、DDPM/DDIM 采样算法、classifier-free guidance、U-Net、flow matching。