温度 (Temperature)

控制 LLM 输出随机程度的采样参数——0 = 完全 deterministic 保守，越高越多样但也越容易出错。

Temperature 是控制 LLM 每个 token 怎么挑的旋钮。模型对每个可能的 token 产生概率分布；temperature 扭曲这个分布：0 的时候总是挑概率最高的 token（deterministic、保守、重复）。1 的时候从原始分布采样（自然多样）。超过 1，低概率 token 被放大（创意、怪、容易出错）。它重要的原因是：合适的 temperature 看任务。结构化输出（JSON、code、SQL）用 0 或 0.1——你要一致、可重现的答案。头脑风暴、创意写作、生多个候选用 0.7-1.0——你要多样性。诗、极致创意可以再高。举个例子：要模型翻译一段法律合同。Temperature 0 每次都给同样翻译，方便 review 跟版本控制。要它帮一个产品上市写五个 Twitter hook。Temperature 0.8 给你五个不同切入点，而不是同一个 hook 的五种改写。注意：temperature 0 不一定保证跨调用结果完全一致——供应商内部 sampling 实作可能有些微差异。要真正 deterministic，用 seed 参数（如果有）。延伸阅读：top-p、top-k、sampling、decoding。