跳到内容

指标

BLEU 分数

BLEU

机器翻译的自动评分指标,比对模型输出与参考翻译的 n-gram 重叠程度。

登入以收藏
BLEU(Bilingual Evaluation Understudy)是 2002 年提出的机器翻译自动评分指标。它计算候选翻译里的 1-gram、2-gram、3-gram、4-gram 在参考翻译出现的比例,再乘上 brevity penalty 防止模型只翻简单部分作弊。 它重要的原因是:BLEU 出现以前,评估 MT 要付钱请人比对。BLEU 便宜、deterministic、可重现——20 年来都是这领域追踪进度的方式。NMT 论文很多 SOTA 声称都还是用 BLEU。 举个例子:候选「the cat sat on mat」对照参考「the cat sat on the mat」,4-gram overlap 高、brevity penalty 小,分数约 60。差的翻译「on mat the cat sat」虽然用了全部一样的字,n-gram overlap 低,分数较低。 大缺点:BLEU 跟质量的相关性其实不强。它会惩罚合理的同义改写(「the feline rested on the rug」对照「the cat sat on the mat」几乎是 0 分),对没词边界的语言(中文、日文、泰文)或自由生成几乎没意义。现代替代品有 chrF、COMET、BLEURT、人类评估。LLM benchmarking 用的 BLEU 已经是历史。延伸阅读:ROUGE、machine translation、evaluation。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

BLEU 分数 · BuilderWorld