BLEU(Bilingual Evaluation Understudy)是 2002 年提出的机器翻译自动评分指标。它计算候选翻译里的 1-gram、2-gram、3-gram、4-gram 在参考翻译出现的比例,再乘上 brevity penalty 防止模型只翻简单部分作弊。
它重要的原因是:BLEU 出现以前,评估 MT 要付钱请人比对。BLEU 便宜、deterministic、可重现——20 年来都是这领域追踪进度的方式。NMT 论文很多 SOTA 声称都还是用 BLEU。
举个例子:候选「the cat sat on mat」对照参考「the cat sat on the mat」,4-gram overlap 高、brevity penalty 小,分数约 60。差的翻译「on mat the cat sat」虽然用了全部一样的字,n-gram overlap 低,分数较低。
大缺点:BLEU 跟质量的相关性其实不强。它会惩罚合理的同义改写(「the feline rested on the rug」对照「the cat sat on the mat」几乎是 0 分),对没词边界的语言(中文、日文、泰文)或自由生成几乎没意义。现代替代品有 chrF、COMET、BLEURT、人类评估。LLM benchmarking 用的 BLEU 已经是历史。延伸阅读:ROUGE、machine translation、evaluation。
We use cookies
Anonymous analytics help us improve the site. You can opt out anytime. Learn more