跳到内容

指标

ROUGE 分数

ROUGE

评估摘要质量的指标家族,比对生成摘要与人类参考摘要的 n-gram 重叠;常见有 ROUGE-1、ROUGE-2、ROUGE-L。

登入以收藏
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一组评估摘要的指标。BLEU 为翻译设计、强调 precision(「我用的词有多少在参考里?」),ROUGE 强调 recall(「参考的词我抓到多少?」)。常见变体:ROUGE-1(unigram overlap)、ROUGE-2(bigram)、ROUGE-L(最长共同子序列)。 它重要的原因是:摘要论文跟很多文字生成论文都把 ROUGE 当主指标。如果你比学术文献里的摘要模型,你比的是 ROUGE-1/2/L。CNN/DailyMail、XSum 这类数据集都这样评分。 举个例子:摘要一则新闻。参考摘要:「The Federal Reserve raised rates by 0.25 percentage points on Wednesday.」生成:「On Wednesday the Fed hiked rates a quarter point.」两者意思一样但用词差很多——ROUGE-1 还可以,ROUGE-2 很差,虽然人类会觉得两者质量差不多。 限制跟 BLEU 类似:它奖励字面重叠、不是语义相等。多抄原文用词的模型反而比真的理解再改写的模型分数高。LLM 评估上 ROUGE 越来越多被 LLM-as-judge 跟人类评估补充或取代。延伸阅读:BLEU、summarization、evaluation、LLM-as-judge。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

ROUGE 分数 · BuilderWorld