相似度系列-3:传统方法ROUGE ROUGE: A Package for Automatic Evaluation of Summaries

article/2025/10/7 18:29:21

文章目录

  • ROUGE: A Package for Automatic Evaluation of Summaries
    • introduction
    • 基础模型
      • Rouge-N
      • Rouge_Nmulti
      • ROUGE-L: Longest Common Subs equence
        • 1**Sentence-level LCS**
        • 2**Summary-Level LCS**
      • ROUGE-W: Weighted Longest Common Subsequence
      • ROUGE-S: Skip-Bigram Co-Occurrence Statistics
        • ROUGE-SU: Extension of ROUGE-S
    • 结论
    • 总结

ROUGE: A Package for Automatic Evaluation of Summaries

上一篇中的BLEU是用于文本翻译任务的,主要基于n-grams的方法,评测是以准确率为主要的指标。
这篇是面向文本摘要任务,基于同义词、词序的overlap方法,评测以recall为主。

introduction

首先先介绍了summary关注的的几个方面:连贯性、简洁性、语法性、可读性和内容(Mani,2001)。
conherence/conciseness/grammatically/readaility/content.
在以往的方法中,提到了基于content的方法,包括cos相似度、unit overlap、longest common subsequence.
However they did not show how the result of these automatic evaluation methods correlated to human judgements.

基础模型

Rouge-N

在这里插入图片描述

Rouge_Nmulti

当multiple references被使用时,计算每个reference和candidate之间的Rouge 分值,然后取最大值作为最终这一candidate的分值。
在计算最终的Rouge_N的分值时,采用所有的candidate的平均值作为最终值。
在这里插入图片描述

ROUGE-L: Longest Common Subs equence

1Sentence-level LCS

LCS :longest common sequence.
基于LCS的评测,是计算precision、recall、f1分值。
两个summary之间的相似值。
summary X:length=m
summary Y:length=n
对应的P、R和F分值计算为:
在这里插入图片描述
ß = Plcs/Rlcs

The disadvantages that it only counts the main in-sequence words; therefore the other alternative LCSes and the shortest sequences are not reflected in the final score.

2Summary-Level LCS

当candidate summary中有n个sentences时,计算这n个sentence和一个summery sentence的longest sequence score

在这里插入图片描述
在这里插入图片描述

ROUGE-W: Weighted Longest Common Subsequence

β=Plcs/Rlcs
在这里插入图片描述

ROUGE-S: Skip-Bigram Co-Occurrence Statistics

police killed the gunman 对应的skip bi-grams有
(“police killed”, “police the”, “police gunman”,
“killed the”, “killed gunman”, “the gunman”)
在计算时,采用计算方法:
C(m,2)是所有全排的数量。
X reference,Y candidate
在这里插入图片描述
匹配和词序有一定的关联性。

可能会存在虚假匹配,比如,the the、of in 这种,文中提出的解决方式,限制skip distance的最大距离。

ROUGE-SU: Extension of ROUGE-S

当两个句子的词的顺序完全相反时,Rouge_S 的计算分值是0,但是这不太合理,提出了Rouge_SU。它是在Rouge_S的基础上加上了unigram作为计算单元????
We can also obtain ROUGE-SU from ROUGE-S by adding a begin-of-sentence marker at the beginning of candidate and reference sentences

在评估这个metric方法好坏时,采用的皮尔逊相关性。评价和人类评级分值的相关性。

在这里插入图片描述

结论

变量条件:
single summary
multi-document summary
short summary
exclusion of stopwords
multiple references

(1) ROUGE-2, ROUGE-L, ROUGE-W, and
ROUGE-S worked well in single document summarization tasks,
(2) ROUGE-1, ROUGE-L, ROUGE-W, ROUGE-SU4, and ROUGE-SU9 performed great in evaluating very short summaries (or headline-like
summaries)
(3) correlation of high 90% was hard to
achieve for multi-document summarization tasks but ROUGE-1, ROUGE-2, ROUGE-S4, ROUGE-S9, ROUGE-SU4, and ROUGE-SU9 worked reasonably well when stopwords were excluded from matching,
(4) exclusion of stopwords usually improved correlation, and
(5) correlations to human judgments were increased by using multiple references.

总结

这两篇文章都是先从“指标项”开始的,比如translation更关注什么指标?summary关注什么指标?一致性、流畅性等等。
上一篇是bi-grams
这一篇是:P/R/F,longest common sequence
有一个核心假设,比如,相同的公共子序列越长,则效果越佳。


http://chatgpt.dhexx.cn/article/e8HAO3kY.shtml

相关文章

评价指标BLEU,ROUGE

精确率:在预测为正的样本中,预测对的比例 召回率:在真正为正的样本中,预测对的比例 BLEU 比较候选译文和参考译文的n-gram的重合程度,unigram用于衡量单词翻译的准确度,高阶n-gram用于衡量句子翻译的流畅…

文本摘要生成评价指标——rouge

文本摘要生成评价指标——rouge rouge的作用:rouge的内容:rouge的类别:rouge的使用:rouge-N的理解:Rouge-L的理解 rouge的作用: -Rouge的全名是Recall-Oriented Understudy for GistingEvaluation&#xf…

Rouge的安装与使用

这个坑实在太深了,总结几位大佬博客,汇总了可能出现的问题。愿为后人照福吧。 步骤 1. 需要安装perl解释器(ubuntu 系统已自带, 通过perl -v可查看当前版本); 2. 需要额外安装perl解释器的XML::DOM模块以及DB_File模块,而XML::…

ROUGE评测标准

简介 ROUGE 指标的全称是 (Recall-Oriented Understudy for Gisting Evaluation),主要是基于召回率 (recall) 的。ROUGE 是一种常用的机器翻译和文章摘要评价指标。 ROUGE-N ROUGE-N 主要统计 N-gram 上的召回率 公式的分母是统计在参考译文中 N-gram 的个数&am…

python中rouge是什么程序_rouge与pyrouge使用事项

1.rouge介绍 ROUGE评价方法与pyramid,BLUE方法一起作为评价自动摘要质量的内部评价方法的三大中流砥柱。 ROUGE:recall-oriented understand for gisting evalution 2004年,Chin-Yew Lin 提出 基本思想 由多个专家分别生成人工摘要,构成标准摘要集,将系统生成的自动摘要与人…

rouge安装

环境:Linux;需要root权限 1、检查是否有perl。输入perl -v。我的版本是5.26 2、安装XML::Parser 解压后进入XML::Parser目录下;输入命令 perl Makefile.PL make sudo make install 出现问题缺少Expat,直接install失败了&…

安装rouge和pyrouge

先rouge https://blog.csdn.net/Hay54/article/details/78744912 再pyrouge https://blog.csdn.net/MerryCao/article/details/49174283 具体流程: 一,ROUGE ROUGE是由微软亚洲研究院知识挖掘组(The Knowledge Mining group at Microsoft Research Asia)…

文本摘要评测工具ROUGE的搭建和测试

文本摘要任务中最常用的评价方法是ROUGE(Recall-Oriented Understudy for Gisting Evaluation)。ROUGE受到了机器翻译自动评价方法BLEU的启发,不同之处在于,采用召回率来作为指标。基本思想是将模型生成的摘要与参考摘要的n元组贡献统计量作为评判依据。…

NLP基础知识点:ROUGE

ROUGE: A Package for Automatic Evaluation of Summaries 1. 简介 ROUGE 指标由 Chin-Yew Lin 提出, 主要用于评估机器翻译和文章生成摘要的质量,其全称是 (Recall-Oriented Understudy for Gisting Evaluation) 它主要基于召回率和n-gram 2. 预备知…

自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S

关于ROUGE ROUGE(Recall-Oriented Understudy for Gisting Evaluation),在2004年由ISI的Chin-Yew Lin提出的一种自动摘要评价方法,是评估自动文摘以及机器翻译的一组指标。 ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要&a…

warmup_csaw_2016

文章目录 一、查看文件二、拖入IDA pro 中反编译三、编写代码总结 一、查看文件 先file ./warmup_csaw_2016查看文件类型再checksec --filewarmup_csaw_2016检查一下文件保护情况。 二、拖入IDA pro 中反编译 用IDA Pro 64bit打开warmup_csaw_2016后按 F5 反汇编源码并查看…

linux-centOS7.9通过docker安装cwmp server:drumsergio/genieacs

一、安装环境 #查看centOS版本 [rootMiWiFi-R4CM-srv network-scripts]# cat /etc/redhat-release CentOS Linux release 7.9.2009 (Core) #自动查找最新安装包并升级 [rootMiWiFi-R4CM-srv ~]# sudo yum upgrade 二、关闭firewalld、NetworkManager、selinux 关闭防火墙、…

MCP\eMCP\uMCP

MCP\eMCP\uMCP MCP是什么?MCP的结构详细的介绍具体的厂商及搭配参考 MCP是什么? MCP,即Multi-Chip-Package简称,中文意思是多制层封装芯片,即记忆体NOR Flash、NAND Flash、Low Power SRAM及Pseudo SRAM等堆叠封装成一…

关于CWMP基础(二)----TR069通信流程

1.通信流程图 建立TCP连接SSL初始化,进行加密建立安全机制由CPE端发起HTTP请求,发送Inform报文,开始建立CWMP连接。Inform中使用Eventcode字段描述发送Inform请求的原因 如 6 CONNECTION REQUEST ,表示ACS要求建立连接。如果ACS通…

网络协议篇之CWMP协议(三)—— RPC方法

一、CWMP方法 ACS对CPE的管理和监控是通过一系列的操作来实现的,这些操作在CWMP协议里称为RPC方法。主要方法的描述如下: Get:ACS使用该方法可以获取CPE上参数的值。 Set:ACS使用该方法可以设置CPE上参数的值。 Inform&#xf…

OpenWrt开发必备软件模块——网络管理(CWMP、SSH、QoS、SMTP、NTP、uHTTPd)

一、CWMP简介 CWMP(CPE WAN Management Protocol)是一个面向终端设备的网管技术规范。这个技术规范提供了对下一代网络中家庭网络设备进行管理配置的通用框架、消息规范、管理方法和数据模型。它由宽带(Broadband)论坛管理和发布…

CWMP(TR069)协议标准学习

协议栈分层 网关和ACS管理平台之间终端管理相关的管理接口协议栈层次如下图: 其中RPC层定义了网关远程管理中的远程调用方法集。 SOAP协议层定义了用来编译RPC方法的标准XML句法,其要求如下: 应支持SOAP 1.1。XML Schema文件头、SOAP信包头…

Openwrt常用软件模块之CWMP

Openwrt常用软件模块之CWMP CWMP概述 CWMP(CPE WAN Management Protocol)是一个面向终端设备的网管技术规范。这个技术规范提供了对下一代网络中家庭网络设备进行管理配置的通用框架、消息规范、管理方法和数据模型 。 它由宽带(Broadband&a…

MPC

文章目录 前言1. 背景 Background1.1 滚动时域控制 Receding Horizon Control1.2 线性模型预测控制 Linear Model Predictive Control1.3 非线性模型预测控制 Nonlinear Model Predictive Control1.4 线性鲁棒模型预测控制 Linear Robust Model Predictive Control1.4.1 反馈预…

基于CWMP(TR069)协议ACS服务器的搭建

Linux上安装openacs Openacs的安装分为四大步: 1.安装jdk 2.安装jboss 3.安装mysql 4.部署openacs JDK简介 Java DevelopmentKit(JDK)是由Sun公司发布的针对Java开发人员发布的免费软件开发工具包(SDK, Software development kit)。自Java推出以来,JDK已…