BLEU 分数

机器翻译的自动评分指标，比对模型输出与参考翻译的 n-gram 重叠程度。

BLEU（Bilingual Evaluation Understudy）是 2002 年提出的机器翻译自动评分指标。它计算候选翻译里的 1-gram、2-gram、3-gram、4-gram 在参考翻译出现的比例，再乘上 brevity penalty 防止模型只翻简单部分作弊。它重要的原因是：BLEU 出现以前，评估 MT 要付钱请人比对。BLEU 便宜、deterministic、可重现——20 年来都是这领域追踪进度的方式。NMT 论文很多 SOTA 声称都还是用 BLEU。举个例子：候选「the cat sat on mat」对照参考「the cat sat on the mat」，4-gram overlap 高、brevity penalty 小，分数约 60。差的翻译「on mat the cat sat」虽然用了全部一样的字，n-gram overlap 低，分数较低。大缺点：BLEU 跟质量的相关性其实不强。它会惩罚合理的同义改写（「the feline rested on the rug」对照「the cat sat on the mat」几乎是 0 分），对没词边界的语言（中文、日文、泰文）或自由生成几乎没意义。现代替代品有 chrF、COMET、BLEURT、人类评估。LLM benchmarking 用的 BLEU 已经是历史。延伸阅读：ROUGE、machine translation、evaluation。