判断两篇文章的相似度

article/2025/6/7 11:17:54

判断相似度

    • 基于jieba 关键字提取的方法
      • textrank
      • ·关键字的提取代码:
      • tf-idf
      • ·关键字的提取代码:
      • 统计数据
      • 统计数据的代码:
      • 完整代码:

基于jieba 关键字提取的方法

textrank

1,将待抽取关键词的文本进行分词
2,以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图
3,计算图中节点的PageRank,注意是无向带权图

·关键字的提取代码:

#textrank
def testRank(corpus1, corpus2):keywords_textrank1 = jieba.analyse.textrank(corpus1, 15)    # 提取15个关键字keywords_textrank2 = jieba.analyse.textrank(corpus2, 15)return keywords_textrank1, keywords_textrank2

tf-idf

·词频(term frequency, tf) 指的是某一个给定的词语在该文件中出现的频率
·你想文档频率(inverse document frequency, idf)是一个词语普遍的重要性度量,某一特定词语的idf,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取以10底的对数得到
在这里插入图片描述
举例

·关键字的提取代码:

def Tfidf_extract(corpus1, corpus2):# tf-idfkeywords_tfidf1 = jieba.analyse.extract_tags(corpus1, 15)keywords_tfidf2 = jieba.analyse.extract_tags(corpus2, 15)return keywords_tfidf1, keywords_tfidf2

统计数据

用两篇文章提取关键字的交集除关键字的并集,得到一个简单的相似度分析

统计数据的代码:

def count_word(A, B):return round((len(set(A).intersection(set(B)))/len(set(A).union(set(B)))), 4)

完整代码:

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author:小皮
# datetime:2021/11/21 13:06
# software: PyCharm
import jieba.analyse#准备语料
corpus1 = "今天是星期日,中午我买了一个鸡腿"
corpus2 = "今天是星期一,中午我买了一杯可乐"#textrank
def testRank(corpus1, corpus2):keywords_textrank1 = jieba.analyse.textrank(corpus1, 15)keywords_textrank2 = jieba.analyse.textrank(corpus2, 15)return keywords_textrank1, keywords_textrank2def Tfidf_extract(corpus1, corpus2):# tf-idfkeywords_tfidf1 = jieba.analyse.extract_tags(corpus1, 15)keywords_tfidf2 = jieba.analyse.extract_tags(corpus2, 15)return keywords_tfidf1, keywords_tfidf2def count_word(A, B):return round((len(set(A).intersection(set(B)))/len(set(A).union(set(B)))), 4)corpus_ran1, corpus_ran2 = testRank(corpus1, corpus2)
corpus_tif1, corpus_tif2 = Tfidf_extract(corpus1, corpus2)print("相似度:", count_word(corpus1, corpus2))
print("相似度:", count_word(corpus_tif1, corpus_tif2))
# 相似度: 0.6316
# 相似度: 0.25

http://chatgpt.dhexx.cn/article/vdOQLZPv.shtml

相关文章

检测文章相似度的方法?文章原创度检测工具免费

免费检测文章相似度的软件,什么是检测文章相似度的软件,简单来说就是原创检测工具,相信不少的朋友都在利用这个功能来检测自己文章的原创度是多少?要做好一篇文章真的只需要检测文章的相似度吗?答案:肯定是…

[将小白进行到底] 如何比较两篇文章的相似度

其实这个题目已经有很多人写过了,数学之美里就有,最近阮一峰的博客里也写了,本文基本上遵循的就是他的思路,只是让其看起来再小白一点点。其实说白了就是用自己的话,再把同样一件事描述一下,顺便扩扩句&…

文本相似度的检测

项目原理 基于词频:统计文章中词频,构建词频特征向量,利用特征向量夹角的余弦值表示文本的相似度。两篇文章最大相似度为1,特征向量夹角为0。 基于词频的文本相似度检测步骤: 文本1和文本2分词—去停用词统计两篇文章的词频词频向量1和词频向量2相似度的计算分词:例:“…

网页抓取:PHP实现网页爬虫方式小结

抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单。 一、Ganon …

php中取页面的值_php如何抓取网页上的数据

php中抓取网页内容的实例详解 方法一:使用file_get_contents方法实现$url "http://news.sina.com.cn/c/nd/2016-10-23/doc-ifxwztru6951143.shtml"; $html file_get_contents($url); //如果出现中文乱码使用下面代码 //$getcontent iconv("gb2312…

关于如何使用PHP抓取网页数据并进行处理的经验

在网络时代,数据是无处不在的。很多时候,我们需要从网页上获取特定的数据,以便进行进一步的处理和分析。而PHP作为一种强大的编程语言,提供了丰富的函数和库来帮助我们实现这个目标。本文将分享一些关于如何使用PHP抓取网页数据并…

php根据URL获得网页内容

php 中根据url来获得网页内容非常的方便&#xff0c;可以通过系统内置函数file_get_contents(),传入url,即可返回网页的内容&#xff0c;比如获得百度首页的内容代码为&#xff1a; <?php $html file_get_contents(http://www.baidu.com/);echo $html; 就可以显示出百度首…

php抓取网页内容,获取网页数据

php通过simple_html_dom实现抓取网页内容&#xff0c;获取核心网页数据&#xff0c;将网页数据写入本地 xxx.json 文件 其代码实现逻辑&#xff1a; 1. 引入simple_html_dom.php文件 require_once simple_html_dom-master/simple_html_dom.php; 2. 获取远程或者本地html文件…

PS Adobe软件使用 快捷键

两年前学的&#xff0c;为了考一个高新 怕自己忘了 仅为防止以后自己忘记而做的备忘笔记&#xff0c;请勿吐槽 图片类型 JPEG 有损压缩格式(能够将图像压缩在很小的储存空间&#xff0c;图像中重复或不重要的资料会被丢失&#xff0c;因此容易造成图像数据的损伤。尤其是…

html选区控制怎么用,ps载入选区的快捷键是什么?

ps载入选区的快捷键是&#xff1a;ALTSO。在ps中&#xff0c;使用“ALTSO”快捷键&#xff0c;会弹出“载入选区”对话框&#xff0c;然后选择相应的通道&#xff0c;点击“确定”&#xff0c;即可载入选区。 ps载入选区有三种方法&#xff1a;右键菜单、ps载入选区快捷键、以及…

计算机中的PS颜色填充快捷键,ps颜色填充快捷键【设置办法】

喜欢使用电脑的小伙伴们一般都会遇到win7系统ps颜色填充快捷键的问题&#xff0c;突然遇到win7系统ps颜色填充快捷键的问题就不知道该怎么办了&#xff0c;其实win7系统ps颜色填充快捷键的解决方法非常简单&#xff0c;按照 1&#xff1a;首先我们先打开打开ps软件&#xff0c;…

html自由变换图形,ps自由变换的快捷键是什么?

在当前图层中&#xff0c;执行“编辑”——“自由变换”&#xff0c;或者使用ps自由变换快捷键ctrlT&#xff0c;周围会出现变换控件定界框。 当我们使用ps自由变换快捷键ctrlT&#xff0c;开启自由变换之后&#xff0c;然后再配合Ctrl、Shift、Alt&#xff0c;可以对图像进行缩…

计算机中的PS颜色填充快捷键,ps颜色填充快捷键【解决技巧】

很多小伙伴都遇到过ps颜色填充快捷键的困惑吧&#xff0c;一些朋友看过网上零散的ps颜色填充快捷键的处理方法&#xff0c;并没有完完全全明白ps颜色填充快捷键是如何解决的&#xff0c;今天小编准备了简单的解决办法&#xff0c;只需要按照 1&#xff1a;首先我们先打开打开ps…

计算机中的PS颜色填充快捷键,ps中填充颜色的快捷键是什么(填充Shift+F5)

很多小伙伴都遇到过ps颜色填充快捷键的困惑吧&#xff0c;一些朋友看过网上零散的ps颜色填充快捷键的处理方法&#xff0c;并没有完完全全明白ps颜色填充快捷键是如何解决的&#xff0c;今天小编准备了简单的解决办法&#xff0c;只需要按照下面方法操作就行。 PS填充快捷键是S…

PS常用快捷键

PS常用快捷键 1. PS工具快捷键2. 常用的通用快捷键2.1 文档操作2.2 画面显示操作2.3 其他操作 3. 图层操作的快捷键4. 图像调整操作快捷键5. 移动工具模式快捷键6. 选区类工具模式快捷键6.1 选框工具模式6.2 套索工具模式6.3 快速选择工具模式 7. 画笔工具模式快捷键 声明&…

html5如何快速选择工具,PS快速选择工具怎么使用?快捷键是什么?

快速选择工具是创建选区时使用频率相当高的一个工具&#xff0c;不但使用起来十分方便&#xff0c;创建的选区精度也十分高。下面我们就一起来看看PS快速选择工具怎么使用&#xff1f;快捷键是什么吧&#xff01; 1、快速选择工具 快速选择工具使用一个可以调节大小的原型笔尖来…

Ps怎么进行反选

Ps怎么进行反选&#xff0c;ps是我们日常生活中也会经常用到的一款强大的图像处理软件&#xff0c;不论是美工还是平面设计师、插画设计师等等&#xff0c;都会用到ps软件&#xff0c;那么在ps软件里面&#xff0c;怎么样对图像进行反选&#xff1f;其实也很简单哦&#xff01;…

应用商店的ASO和搜索引擎的SEO的区别

ASO和SEO&#xff0c;目标相似&#xff0c;有着异曲同工之妙&#xff0c;两者都是提高搜索排名的方式&#xff0c;具体有什么区别呢&#xff1f;今天柚鸥ASO给大家做一下总结。 SEO是指搜索引擎优化&#xff0c;利用搜索引擎的规则来提高网站&#xff08;例如&#xff1a;百度…

关于ASO优化和ASM投放

ASO是指应用商店搜索优化&#xff0c;有助于提高应用商店中产品的访问量和下载转化率。ASM是指官方应用市场提供的竞价广告位。无论进行的是ASO优化还是ASM投放&#xff0c;我们都要给应用进行标题、副标题、关键词、详情描述、截图预览、视频预览进行具体设置和初步优化。 应…

aso是做什么的_ASOer的目标

ASO是“应用商店优化”的简称。ASO(App store Optimization)就是提升你APP在各类APP应用商店/市场排行榜和搜索结果排名的过程。类似普通网站针对搜索引擎的优化,即SEO(Search Engine Optimization)优化。 ASO优化就是利用App Store的搜索规则和排名规则让APP更容易被用户搜…