ROUGE 分数

评估摘要质量的指标家族，比对生成摘要与人类参考摘要的 n-gram 重叠；常见有 ROUGE-1、ROUGE-2、ROUGE-L。

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）是一组评估摘要的指标。BLEU 为翻译设计、强调 precision（「我用的词有多少在参考里？」），ROUGE 强调 recall（「参考的词我抓到多少？」）。常见变体：ROUGE-1（unigram overlap）、ROUGE-2（bigram）、ROUGE-L（最长共同子序列）。它重要的原因是：摘要论文跟很多文字生成论文都把 ROUGE 当主指标。如果你比学术文献里的摘要模型，你比的是 ROUGE-1/2/L。CNN/DailyMail、XSum 这类数据集都这样评分。举个例子：摘要一则新闻。参考摘要：「The Federal Reserve raised rates by 0.25 percentage points on Wednesday.」生成：「On Wednesday the Fed hiked rates a quarter point.」两者意思一样但用词差很多——ROUGE-1 还可以，ROUGE-2 很差，虽然人类会觉得两者质量差不多。限制跟 BLEU 类似：它奖励字面重叠、不是语义相等。多抄原文用词的模型反而比真的理解再改写的模型分数高。LLM 评估上 ROUGE 越来越多被 LLM-as-judge 跟人类评估补充或取代。延伸阅读：BLEU、summarization、evaluation、LLM-as-judge。