文档摘要自动提取算法——抽取式

article/2025/9/27 16:49:48

文档摘要自动提取算法——抽取式

    

    自动提取文档摘要的算法,主流方法分为两类:Extractive 抽取式、Abstractive 概要式。这篇我们主要将抽取式。


抽取式:

    从原始文档集中抽取一些具有代表性的文本片段构成摘要,这些片段可以是整个文档中的句子、子句、段落或者小节。

    抽取式方法有两个问题,如何对文本单元排序打分;如何抽取文本单元的一个子集生成摘要。分别对应着排序单元和抽取单元。

    通俗讲就是,先用排序单元把文档中的单元排序,选择排名靠前的单元,再用抽取单元去除选出来的单元之间的冗余信息,得到最后的自动摘要。


    

    两种实现思路:1)排序单元给句子打分,抽取单元抽取(去除冗余)句子子集作为摘要;2)排序单元给文档集中的概念打分,抽取单元抽取一组能够最大限度覆盖重要概念的句子。

    对于排序单元,有三种学习排序算法:

1) pointwise排序:孤立地处理每个样本(句子或者概念),把句子的特征和标记(排序等级)输入到机器学习算法中,学习出分类器;

2) pairwise排序:从一系列句子对或者概念对{(x_i, x_j)}中学习排序函数f(x_i)。考虑了两两样本之间的排序问题;

3) listwise排序:所有样本之间的排序都考虑在内。

一定程度上,学习排序算法(LTR)和多标记学习里的方法是类似的,一阶/二阶/高阶方法。

 

    对于抽取单元,需要从排序后的文本单元中,抽取一部分代表性的句子,生成抽取式摘要,在抽取的过程中,要尽可能地去除冗余。常用的是一个基于整数规划的抽取方法








求解上面的整数规划,我们就可以得到哪些句子是需要抽取出来,组成摘要的。




参考文献:

文档摘要算法的研究与应用    金锋






http://chatgpt.dhexx.cn/article/2EHO7ej8.shtml

相关文章

信息摘要算法之三:SHA256算法分析与实现

前面一篇中我们分析了SHA的原理,并且以SHA1为例实现了相关的算法,在这一片中我们将进一步分析SHA2并实现之。 1、SHA简述 前面的篇章中我们已经说明过,SHA实际包括有一系列算法,分别是SHA-1、SHA-224、SHA-256、SHA-384以及SHA-…

信息摘要算法之二:SHA1算法分析及实现

SHA算法,即安全散列算法(Secure Hash Algorithm)是一种与MD5同源的数据加密算法,该算法经过加密专家多年来的发展和改进已日益完善,现在已成为公认的最安全的散列算法之一,并被广泛使用。 1、概述 SHA算法…

常见的信息摘要和加密算法(原理+使用)

目录 散列(Hash)算法MD5MD5和Base64 SHA系列HMAC系列 对称加密算法DES3DESAES 非对称加密算法RSAECDHE 加密盐 散列(Hash)算法 MD5 MD5信息摘要算法(MD5 Message-Digest Algorithm),一种被广泛使用的密码散列函数,可以将任意数据产…

【加密算法】5 种常见的摘要、加密算法

大家平时的工作中,可能也在很多地方用到了加密、解密,比如: 用户的密码不能明文存储,要存储加密后的密文用户的银行卡号、身份证号之类的敏感数据,需要加密传输还有一些重要接口,比如支付,客户…

6、摘要提取算法

目前主要方法有: 基于统计:统计词频,位置等信息,计算句子权值,再简选取权值高的句子作为文摘,特点:简单易用,但对词句的使用大多仅停留在表面信息。基于图模型:构建拓扑…

视频摘要算法概述

DSNet: A Flexible Detect-to-Summarize Network for Video Summarization 论文 代码 不同于以往将视频摘要视为回归问题(没有考虑时间相关性和完整性约束),2021年,最早的考虑这两者。 视频摘要通常分为三步: 1、镜头…

信息摘要算法

Java常用的安全算法 目录概 述 LD is tigger forever,CG are not brothers forever, throw the pot and shine forever. Modesty is not false, solid is not naive, treacherous but not deceitful, stay with good people, and stay away from poor pe…

摘要算法(哈希算法)

1. HASH算法 哈希算法(Hash)又称摘要算法(Digest),它的作用是:对任意一组输入数据进行计算,得到一个固定长度的输出摘要。 哈希函数的主要作用不是完成数据加密与解密工作,它是用来检验数据完整性的重要技术,运算结果具有不可逆性。 通过哈希函数,可以为数据创建&…

五分钟搞懂摘要算法

一.摘要算法和摘要 1.概述 摘要算法又称哈希算法、散列算法。摘要也称哈希值,表示输入任意长度的数据,都会输出固定长度的数据。通过摘要算法(比如MDS和SHA-1)就可以得到该哈希值。 2.特点 长度固定,结果越长&#xff…

常用几种消息摘要算法

文章目录 1、MD5 (Message Digest algorithm 5 消息摘要算法版本5)2、SHA (Secure Hash Algorithm 安全散列算法)3、MAC (Hash Message Authentication Code 散列消息鉴别码) 消息摘要(Message Digest)又称为数字摘要(Digital Digest&#xf…

摘要算法与加密(以MD5算法为例)

【README】 部分内容总结自: 摘要与加密的区别(以MD5算法为例) - 掘金https://juejin.cn/post/6844903561478799368 【1】摘要算法与加密区别 【1.1】摘要算法(不可逆) 1)摘要算法: 说白了…

报文摘要算法

1 报文摘要算法 报文摘要算法是一种将任意长度报文转换成固定长度的报文摘要算法。它具有以下六个特点:能够作用于任意长度的报文;产生有限位数的标识信息;易于实现;具有单向性;具有抗碰撞性;具有高灵敏性…

摘要算法

摘要算法是一种能产生特殊输出格式的算法,这种算法的特点是:无论用户输入多少长度的原始数据,经过计算后输出的密文都是固定长度的,这种算法的原理是根据一定的运算规则对原数据进行某种形式的提取,这种提取就是摘要&a…

JAVA摘要算法

数据摘要算法是密码学算法中非常重要的一个分支,它通过对所有数据提取指纹信息以实现数据签名、数据完整性校验等功能,由于其不可逆性,有时候会被用做敏感信息的加密。数据摘要算法也被称为哈希(Hash)算法、散列算法。…

摘要算法和加密算法

什么是摘要算法? 摘要算法就是哈希算法,将一条任意长度字符串转为32位的哈希值,是单向的,不能解密。常见的摘要算法有MD5和SHA,本文将用java对MD5算法进行实现。 摘要算法的用途? 1.登录密码的加密&…

三种摘要算法的简单介绍

原文地址: http://blog.csdn.net/u013991521/article/details/48193953 介绍: 消息摘要算法分为三类: MD(Message Digest):消息摘要 SHA(Secure Hash Algorithm):安全散列 MAC(Message Authentication Code)&…

数据分析之运营篇

文章目录 1.指标体系定目标 1.1根据运营的目的,选取不同的指标类型 1.2.北极星指标 1.3 用户留存指标 2.数据分析找问题 2.1.描述分析 2.2多维分析 2.3.相关性分析 2.4.方差分析 2.5 样本检验 2.6 预测分析 3. 3A3R做决策 3.1洞察 3.2获客 3.3.活跃…

京东数据分析工程师(实习生)笔试

忙了一个星期,把最近的笔试面试记录一下。 京东前面单选多选题,后面3道编程题。小题考的很细,各种概率论统计数据库机器学习的知识点,很多都是蒙的,默默的把不会的题记下来,等再学会怎么做了以后发现蒙的都…

Python人力资源员工离职原因数据分析

本项目的数据集来源kaggle竞赛项目:HR-Analytics,自行下载即可! 1.提出问题 公司当中员工们离职的原因是什么? 什么样的员工会离职呢? 2.读取数据,理解数据 导入数据分析工具包,这次我们用seaborn库来优化我们的数据可视化图表! 读取数据 查看数据,head()方法没…

数据分析案例-电影数据分析

目录 电影数据集介绍 加载数据 数据探索和清洗 评分最多的电影 评分最高的电影 评分与年龄的关系 不同年龄段对某部电影的评分 电影数据集介绍 用户信息 #u.user #列名称 user_id,age,gender,occupation,zip_code #数据 1|24|M|technician|85711 2|53|F|other|94043 3…