ROUGE 分數

評估摘要品質的指標家族，比對生成摘要與人類參考摘要的 n-gram 重疊；常見有 ROUGE-1、ROUGE-2、ROUGE-L。

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）是一組評估摘要的指標。BLEU 為翻譯設計、強調 precision（「我用的詞有多少在參考裡？」），ROUGE 強調 recall（「參考的詞我抓到多少？」）。常見變體：ROUGE-1（unigram overlap）、ROUGE-2（bigram）、ROUGE-L（最長共同子序列）。它重要的原因是：摘要論文跟很多文字生成論文都把 ROUGE 當主指標。如果你比學術文獻裡的摘要模型，你比的是 ROUGE-1/2/L。CNN/DailyMail、XSum 這類資料集都這樣評分。舉個例子：摘要一則新聞。參考摘要：「The Federal Reserve raised rates by 0.25 percentage points on Wednesday.」生成：「On Wednesday the Fed hiked rates a quarter point.」兩者意思一樣但用詞差很多——ROUGE-1 還可以，ROUGE-2 很差，雖然人類會覺得兩者品質差不多。限制跟 BLEU 類似：它獎勵字面重疊、不是語意相等。多抄原文用詞的模型反而比真的理解再改寫的模型分數高。LLM 評估上 ROUGE 越來越多被 LLM-as-judge 跟人類評估補充或取代。延伸閱讀：BLEU、summarization、evaluation、LLM-as-judge。