Top-p / Nucleus sampling

從累積機率達 p 的最小 token 集合中取樣的方法，會隨模型信心自動調整候選範圍。

Top-p sampling（又叫 nucleus sampling）把模型的選擇限制在累積機率達到至少 p（通常 0.9 或 0.95）的最小 token 集合，然後從這個集合取樣。模型有信心時，「nucleus」可能只有 2-3 個 token。模型不確定時，nucleus 擴大到 50+ token。它重要的原因是：top-p 能根據 context 自適應，固定 k 的方法做不到。Top-k 50 永遠考慮 50 個 token——即使模型已經強烈偏好某一個——會產生雜訊。Top-p 只在模型自己不確定時才擴大考慮範圍，輸出更自然、更一致。舉個例子：續寫「The capital of France is」——模型對「Paris」有 99%+ 機率。Top-p 0.9 選 Paris。續寫「My favorite color is」——機率分散在 red、blue、green 等等。Top-p 0.9 會考慮所有常見顏色字。Top-k 50 兩個情況都會包含 0.0001% 機率的冷門 token，浪費。多數 API 讓你同時設 temperature 跟 top-p。常見預設：temperature 0.7-1.0、top-p 0.9-0.95。要 deterministic 輸出（code、JSON），用 temperature 0——top-p 就無關緊要了。延伸閱讀：temperature、top-k、sampling、decoding。