6、摘要提取算法

article/2025/9/27 17:12:35

目前主要方法有:

  • 基于统计:统计词频,位置等信息,计算句子权值,再简选取权值高的句子作为文摘,特点:简单易用,但对词句的使用大多仅停留在表面信息。
  • 基于图模型:构建拓扑结构图,对词句进行排序。例如,TextRank/LexRank
  • 基于潜在语义:使用主题模型,挖掘词句隐藏信息。例如,采用LDAHMM
  • 基于整数规划:将文摘问题转为整数线性规划,求全局最优解。

TextRank 算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的 PageRank算法, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取文摘。和 LDAHMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用

Textrank

1、把给定的文本T按照完整句子进行分割,即

          

 

2、对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即,其中是保留后的候选关键词。

    

3、构建候选关键词图G = (V,E),其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。

计算每两个句子之间的相似度:

Si 代表的是第 i 个句子。

wk 代表的是句子中第 k 个单词。

|Si| 代表的是句子中单词的个数。

{ wk| wk Si & wk Sj } 代表着同时在 Si Sj 中出现的单词。

举个例子。

I am a fool. A big fool. I like fool.

前两句句子当中都有的单词是 a fool,两个单词。

第一句话和第三句话都有的单词是 I fool

后两句句子当中都有的单词是 fool .

第一句话长度是 4,第二句话长度是3, 第三句话长度是3.

Similarity(S1,S2) = 2 / ( log(3) + log(4) ) = 0.80

Similarity(S1,S3) = 2 / ( log(3) + log(3) ) = 0.91

Similarity(S2,S3) = 1 / ( log(3) + log(4) ) = 0.40

Similarity(S1,S2) = Similarity(S2,S1)

 

WS(Vi) 代表的是Vi这个页面的分数

d 代表的是一个阻尼常数 (0<d<1),用来确保每一个页面都至少有 (1-d)的分数。

In(Vi) 代表的是推荐Vi的页面。

Out(Vi) 代表的是Vi推荐的页面。

wji 代表的是 Vi Vj 之间的相似度。

我们拿第一句句子作为例子,看一看它的得分。同样的,初始分数都是

WS(V1) = (1 - 0.85) + 0.85 *

( /*第二句句子*/ (0.80 * 1) / (0.80 + 0.40) +

  /*第三句句子*/ (0.91 * 1) / (0.91 + 0.40) ) = 1.30

4、根据上面公式,迭代传播各节点的权重,直至收敛。

5、对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。

6、由5得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词

 

Word2vec+TextRank

 

同过word2vec训练得到词向量,再利用训练得到的词向量得到两个句子之间的相似度(求每个句子中所有单词的平均向量),从而通过迭代可以得到每个句子的权重,进行排序。

 

LDA+TextRank

 

利用LDA对文档集进行主题建模和候选关键词的主题影响力计算,将候选关键词的重要性按照主题影响力和邻接关系进行非均匀传递,并构建新的概率转移矩阵用于词图迭代计算和关键词抽取。

一篇文档被表示为K个隐含主题混合分布,每个主题在W 词语上的多项分布,如上图所示。φ表示主题-词语的概率分布,θ表示文档-词语的概率分布。αβ表示超参数,空心圆表示隐含变量,实心圆表示可观察到的变量。对于文档d来说。ti(w|d)表示该词在文档d中的影响力。文档dt个主题组成,w在一个主题z中出现概率越大,表明越重要;一个主题zd中出现概率越大,z越重要,相对来说w也就越重要。所以

φ表示wz中的概率,θ表示zd中概率。Wd中的影响力如上式。

C1(d,j)表示d中的词赋给主题j的词数;C2(w,j)表示w赋给主题j的词数。N表示词汇表的大小。

这与textrank计算公式相同。

节点v分为两个部分,一部分为节点的当前重要性,权重为1,并在迭代过程中按照相邻节点的值进行调整,即为TR(Vi);另一部分为节点本身的主题影响力,为TI(Vi)

这上面参数都是为计算概率转移矩阵的。

初始权重分布。

转移概率矩阵

 

迭代更新。

 

 


http://chatgpt.dhexx.cn/article/cVryfkZk.shtml

相关文章

视频摘要算法概述

DSNet: A Flexible Detect-to-Summarize Network for Video Summarization 论文 代码 不同于以往将视频摘要视为回归问题&#xff08;没有考虑时间相关性和完整性约束&#xff09;&#xff0c;2021年&#xff0c;最早的考虑这两者。 视频摘要通常分为三步&#xff1a; 1、镜头…

信息摘要算法

Java常用的安全算法 目录概 述 LD is tigger forever&#xff0c;CG are not brothers forever&#xff0c; throw the pot and shine forever. Modesty is not false, solid is not naive, treacherous but not deceitful, stay with good people, and stay away from poor pe…

摘要算法(哈希算法)

1. HASH算法 哈希算法(Hash)又称摘要算法(Digest),它的作用是:对任意一组输入数据进行计算,得到一个固定长度的输出摘要。 哈希函数的主要作用不是完成数据加密与解密工作,它是用来检验数据完整性的重要技术,运算结果具有不可逆性。 通过哈希函数,可以为数据创建&…

五分钟搞懂摘要算法

一.摘要算法和摘要 1.概述 摘要算法又称哈希算法、散列算法。摘要也称哈希值&#xff0c;表示输入任意长度的数据&#xff0c;都会输出固定长度的数据。通过摘要算法&#xff08;比如MDS和SHA-1&#xff09;就可以得到该哈希值。 2.特点 长度固定&#xff0c;结果越长&#xff…

常用几种消息摘要算法

文章目录 1、MD5 (Message Digest algorithm 5 消息摘要算法版本5)2、SHA (Secure Hash Algorithm 安全散列算法)3、MAC (Hash Message Authentication Code 散列消息鉴别码) 消息摘要&#xff08;Message Digest&#xff09;又称为数字摘要&#xff08;Digital Digest&#xf…

摘要算法与加密(以MD5算法为例)

【README】 部分内容总结自&#xff1a; 摘要与加密的区别&#xff08;以MD5算法为例&#xff09; - 掘金https://juejin.cn/post/6844903561478799368 【1】摘要算法与加密区别 【1.1】摘要算法&#xff08;不可逆&#xff09; 1&#xff09;摘要算法&#xff1a; 说白了…

报文摘要算法

1 报文摘要算法 报文摘要算法是一种将任意长度报文转换成固定长度的报文摘要算法。它具有以下六个特点&#xff1a;能够作用于任意长度的报文&#xff1b;产生有限位数的标识信息&#xff1b;易于实现&#xff1b;具有单向性&#xff1b;具有抗碰撞性&#xff1b;具有高灵敏性…

摘要算法

摘要算法是一种能产生特殊输出格式的算法&#xff0c;这种算法的特点是&#xff1a;无论用户输入多少长度的原始数据&#xff0c;经过计算后输出的密文都是固定长度的&#xff0c;这种算法的原理是根据一定的运算规则对原数据进行某种形式的提取&#xff0c;这种提取就是摘要&a…

JAVA摘要算法

数据摘要算法是密码学算法中非常重要的一个分支&#xff0c;它通过对所有数据提取指纹信息以实现数据签名、数据完整性校验等功能&#xff0c;由于其不可逆性&#xff0c;有时候会被用做敏感信息的加密。数据摘要算法也被称为哈希&#xff08;Hash&#xff09;算法、散列算法。…

摘要算法和加密算法

什么是摘要算法&#xff1f; 摘要算法就是哈希算法&#xff0c;将一条任意长度字符串转为32位的哈希值&#xff0c;是单向的&#xff0c;不能解密。常见的摘要算法有MD5和SHA&#xff0c;本文将用java对MD5算法进行实现。 摘要算法的用途&#xff1f; 1.登录密码的加密&…

三种摘要算法的简单介绍

原文地址&#xff1a; http://blog.csdn.net/u013991521/article/details/48193953 介绍&#xff1a; 消息摘要算法分为三类&#xff1a; MD(Message Digest)&#xff1a;消息摘要 SHA(Secure Hash Algorithm)&#xff1a;安全散列 MAC(Message Authentication Code)&…

数据分析之运营篇

文章目录 1.指标体系定目标 1.1根据运营的目的&#xff0c;选取不同的指标类型 1.2.北极星指标 1.3 用户留存指标 2.数据分析找问题 2.1.描述分析 2.2多维分析 2.3.相关性分析 2.4.方差分析 2.5 样本检验 2.6 预测分析 3. 3A3R做决策 3.1洞察 3.2获客 3.3.活跃…

京东数据分析工程师(实习生)笔试

忙了一个星期&#xff0c;把最近的笔试面试记录一下。 京东前面单选多选题&#xff0c;后面3道编程题。小题考的很细&#xff0c;各种概率论统计数据库机器学习的知识点&#xff0c;很多都是蒙的&#xff0c;默默的把不会的题记下来&#xff0c;等再学会怎么做了以后发现蒙的都…

Python人力资源员工离职原因数据分析

本项目的数据集来源kaggle竞赛项目:HR-Analytics,自行下载即可! 1.提出问题 公司当中员工们离职的原因是什么? 什么样的员工会离职呢? 2.读取数据,理解数据 导入数据分析工具包,这次我们用seaborn库来优化我们的数据可视化图表! 读取数据 查看数据,head()方法没…

数据分析案例-电影数据分析

目录 电影数据集介绍 加载数据 数据探索和清洗 评分最多的电影 评分最高的电影 评分与年龄的关系 不同年龄段对某部电影的评分 电影数据集介绍 用户信息 #u.user #列名称 user_id,age,gender,occupation,zip_code #数据 1|24|M|technician|85711 2|53|F|other|94043 3…

数据分析岗位招聘分析

项目背景 学习实践数据分析&#xff0c;形成完整报告。分析目标&#xff1a;从行业、城市、学历、经验分析薪资及需求量分布情况 数据获取 集搜客获取拉勾【数据分析】为关键词的职位列表&#xff0c;根据列表职位详情地址爬取职位详情&#xff0c;435条记录,删除重复值后有…

数据分析的工作目标是什么

题图与内容无关&#xff0c;骗点击的。。。 其实这是回答我知识星球一位读者的问题&#xff0c;但恰好也是我现在在做的事情&#xff0c;所以想想&#xff0c;可以写一篇文章分享一下。 数据分析团队的工作方向&#xff0c;按照阶段分为如下目标。 1、提供准确、可靠、及时的基…

数据分析 面经(已拿到offer)

北航计算机专业&#xff08;计院太卷&#xff0c;现考虑转向信息安全方向&#xff09;本科二年级&#xff0c;闲来无事找份日常实习试试水 考虑数分岗也是因为楼主目前大二&#xff0c;专业课学习不够深入&#xff0c;开发技术尚不成熟&#xff0c;而sql、excel和数据可视化比…

数据分析笔试经典sql题解

欢迎关注微信公众号&#xff1a;开心数据 前言&#xff1a;sql是数据分析师笔试必考的考点之一&#xff0c;常考的题型有行列转换、联表查询&#xff0c;这些都比较简单&#xff0c;一般考的最难的就是hivesql窗口函数联表查询&#xff0c;普通的聚合函数每组(Group by)只返回…

滴滴出行2020数据分析面试题

目录 数据来源字段释义指标释义其他信息加载包加载数据数据预处理 问题1 订单的应答率、完单率分别是多少&#xff1f;2 呼叫应答时间多长&#xff1f;3 呼叫量最高的是哪一个小时&#xff08;当地时间&#xff09;&#xff1f;呼叫量最少的是哪一个小时&#xff08;当地时间&a…