跳到內容

指標

ROUGE 分數

ROUGE

評估摘要品質的指標家族,比對生成摘要與人類參考摘要的 n-gram 重疊;常見有 ROUGE-1、ROUGE-2、ROUGE-L。

登入以收藏
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一組評估摘要的指標。BLEU 為翻譯設計、強調 precision(「我用的詞有多少在參考裡?」),ROUGE 強調 recall(「參考的詞我抓到多少?」)。常見變體:ROUGE-1(unigram overlap)、ROUGE-2(bigram)、ROUGE-L(最長共同子序列)。 它重要的原因是:摘要論文跟很多文字生成論文都把 ROUGE 當主指標。如果你比學術文獻裡的摘要模型,你比的是 ROUGE-1/2/L。CNN/DailyMail、XSum 這類資料集都這樣評分。 舉個例子:摘要一則新聞。參考摘要:「The Federal Reserve raised rates by 0.25 percentage points on Wednesday.」生成:「On Wednesday the Fed hiked rates a quarter point.」兩者意思一樣但用詞差很多——ROUGE-1 還可以,ROUGE-2 很差,雖然人類會覺得兩者品質差不多。 限制跟 BLEU 類似:它獎勵字面重疊、不是語意相等。多抄原文用詞的模型反而比真的理解再改寫的模型分數高。LLM 評估上 ROUGE 越來越多被 LLM-as-judge 跟人類評估補充或取代。延伸閱讀:BLEU、summarization、evaluation、LLM-as-judge。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

ROUGE 分數 · BuilderWorld