关于ROUGE
ROUGE(Recall-Oriented Understudy for Gisting Evaluation),在2004年由ISI的Chin-Yew Lin提出的一种自动摘要评价方法,是评估自动文摘
以及机器翻译
的一组指标。
ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要,是一种面向n元词召回率的评价方法。基本思想为由多个专家分别生成人工摘要,构成标准摘要集,将系统生成的自动摘要与人工生成的标准摘要相对比,通过统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目,来评价摘要的质量。通过与专家人工摘要的对比,提高评价系统的稳定性和健壮性。
ROUGE准则由一系列的评价方法组成,包括ROUGE-N(N是n-gram中n,取值有1,2,3,4),ROUGE-L,ROUGE-S, ROUGE-W,ROUGE-SU等。在自动文摘相关研究中,一般根据自己的具体研究内容选择合适的ROUGE方法。
ROUGE-N
ROUGE-N在Chin-Yew Lin的论文中是这样定义的:
分母是人工摘要(也就是标准摘要)中n-gram的个数,分子是人工摘要和机器生成的自动摘要共现(重合)的n-gram的个数。可以看出,ROUGE与召回率的定义很相似。
举例:
机器生成的自动摘要:
the cat was found under the bed
人工生成的标准摘要:
the cat was under the bed
如果我们只考虑单个单词,自动摘要和标准摘要之间的重叠单词数量为6。但是,这并不能作为度量标准。为了获得良好的定量值,我们实际上可以使用二者共线的n-gram数来计算精度和召回率。
ROUGE背景下的精度与召回
上面的例子中,ROUGE-1的值可以很容易计算出来,为 6 6 {6 \over 6} 66,这个值与召回率是一样的,也就是 r e c a l l = 6 6 recall={6 \over 6} recall=66。
这意味着标准摘要(人工生成)中的所有单词都已被机器生成的自动摘要捕获。但是,有可能机器生成的摘要可能非常长,可以很容易捕获标准摘要中的所有单词。但是,系统摘要中的大部分单词可能都是无用的,使得摘要不必要地冗长。这就是精确度发挥作用的地方。在精确度方面,您实际测量的是, 机器生成的自动摘要中有多少实际上相关或需要?精度测量为:
n u m b e r _ o f _ o v e r l a p p i n g _ w o r d s t o t a l _ w o r d s _ i n _ m a c h i n e _ s u m m a r y number\_of\_overlapping\_words \over total\_words\_in\_ machine\_summary total_words_in_machine_summarynumber_of_overlapping_words
分子是机器摘要和标准摘要共现的单词个数,分母是机器摘要中单词的个数。
在这个例子中 p e r c i s i o n = 6 7 = 0.86 percision={6 \over 7} = 0.86 percision=76=0.86
这仅仅意味着系统摘要中的7个单词中的6个实际上是相关的或需要的。如果我们有以下标准摘要,而不是上面的示例: the tiny little cat was found under the big funny bed
那么这时精确度变为: p e r c i s i o n = 6 11 = 0.55 percision={6 \over 11} = 0.55 percision=116=0.55
现在,这看起来不太好,是吗?那是因为我们在摘要中有不少不必要的词。当您尝试生成简洁的摘要时,精确度方面变得非常重要。因此,最好同时计算Precision和Recall,然后报告F-Measure。如果您的摘要在某种程度上可以通过某些约束来使摘要简洁或者是对精确度要求不高,那么您可以考虑仅使用Recall。其实现在的摘要评测任务一般只考虑recall。
ROUGE-2该如何计算?
自动摘要的Bigrams:
the cat, cat was, was found, found under, under the, the bed
标准摘要的Bigrams:
the cat, cat was, was under, under the, the bed
故ROUGE-2的值为 4 5 {4 \over 5} 54,也就是 r e c a l l = 4 5 = 0.8 recall={4 \over 5}=0.8 recall=54=0.8。此时 p e r c i s i o n = 4 6 = 0.67 percision={4 \over 6} = 0.67 percision=64=0.67
ROUGE-N优点
直观,简洁,能反映词序。
ROUGE-N缺点
区分度不高,且当N>3时,ROUGE-N值通常很小。
应用场景
ROUGE-1:短摘要评估,多文档摘要(去停用词条件);
ROUGE-2: 单文档摘要,多文档摘要(去停用词条件);
ROUGE-L
L即是LCS(longest common subsequence,最长公共子序列)的首字母,因为Rouge-L使用了最长公共子序列。Rouge-L计算方式如下图:
其中 L C S ( X , Y ) LCS(X,Y) LCS(X,Y) 是 X 和 Y X和Y X和Y的最长公共子序列的长度, m , n m,n m,n分别表示人工标准摘要和机器自动摘要的长度(一般就是所含词的个数), R l c s , P l c s R_{lcs},P_{lcs} Rlcs,Plcs 分别表示召回率和准确率。最后的 F l c s F_{lcs} Flcs 即是我们所说的 R o u g e − L Rouge-L Rouge−L。在DUC中, β \beta β被设置为一个很大的数,所以 R o u g e − L Rouge-L Rouge−L几乎只考虑了 R l c s R_{lcs} Rlcs,与上文所说的一般只考虑召回率对应。
优点
使用LCS的一个优点是它不需要连续匹配,而且反映了句子级词序的顺序匹配。由于它自动包含最长的顺序通用n-gram,因此您不需要预定义的n-gram长度。
缺点
只计算一个最长子序列,最终的值忽略了其他备选的最长子序列及较短子序列的影响。
应用场景
单文档摘要;短摘要评估。
Rouge-S
使用了skip-grams,在参考摘要和待评测摘要进行匹配时,不要求gram之间必须是连续的,可以“跳过”几个单词,比如skip-bigram,在产生grams时,允许最多跳过两个词。比如“cat in the hat”的 skip-bigrams 就是 “cat in, cat the, cat hat, in the, in hat, the hat”。
优点
考虑了所有按词序排列的词对,比n-gram模型更深入反映句子级词序。
缺点
若不设定最大跳跃词数会出现很多无意义词对。若设定最大跳跃词数,需要指定最大跳跃词数的值。
应用场景
单文档摘要;ROUGE-S4,ROUGE-S9: 多文档摘要(去停用词条件);
参考
https://blog.csdn.net/qq_25222361/article/details/78694617
https://blog.csdn.net/lcj369387335/article/details/69845385
http://text-analytics101.rxnlp.com/2017/01/how-rouge-works-for-evaluation-of.html