比较两篇文章的相似性方法

比较两篇文章的相似性方法

article/2025/10/19 22:08:34

对于这个题目，开始毫无头绪，后来经过查阅资料现在讲方法总结如下：

1、利用余弦定理

我们知道向量 a,b之间的夹角可用余弦定理求得：

201210161110373252.png (106×48)

如果夹角的余弦值越小，那么夹角也越大。如果2个向量相等，那么其值为1。利用此我们可以用来比较文章的相似性。

首先使用一个向量来描述一篇文章，对于一篇文章中的实词，我们可以计算出它们的单文本词汇频率/逆文本频率值（TF/IDF)。不难想象，和新闻主题有关的那些实词频率高，TF/IDF 值很大。我们按照这些实词在词汇表的位置对它们的 TF/IDF 值排序。比如，词汇表有六万四千个词，分别为

单词编号汉字词

------------------

1 阿

2 啊

3 阿斗

4 阿姨

...

789 服装

....

64000 做作

在一篇新闻中，这 64,000 个词的 TF/IDF 值分别为

单词编号 TF/IDF 值

==============

1 0

2 0.0034

3 0

4 0.00052

5 0

...

789 0.034

...

64000 0.075

如果单词表中的某个文章中没有出现，对应的值为零，那么这 64,000 个数，组成一个64,000维的向量。我们就用这个向量来代表这篇新闻，并成为文章的特征向量。如果两篇文章的特征向量相近，则对应的新闻内容相似，它们应当归在一类，反之亦然。

2、利用simhash算法

simhash算法的输入是一个向量，输出是一个f位的签名值。为了陈述方便，假设输入的是一个文档的特征集合，每个特征有一定的权重。比如特征可以是文档中的词，其权重可以是这个词出现的次数。simhash算法如下：

1，将一个f维的向量V初始化为0；f位的二进制数S初始化为0；

2，对每一个特征：用传统的hash算法对该特征产生一个f位的签名b。对i=1到f：

如果b的第i位为1，则V的第i个元素加上该特征的权重；

否则，V的第i个元素减去该特征的权重。

3，如果V的第i个元素大于0，则S的第i位为1，否则为0；

4，输出S作为签名。

通过计算两篇文章的签名的海明距离得出相似度。
如图：

点击查看原始尺寸

以上的所有算法我们都只关注文章的全局信息，忽略了文章的局部信息。

海明距离：

对于向量u,v,海明距离为2个向量相异的位数

比较两篇文章的相似性方法

其中u_i,v_i表示第i维值。

当然还有一些其他的好方法。本文部分内容来自德问，谢谢相关作者的回答。

比较两篇文章的相似性方法

http://chatgpt.dhexx.cn/article/xT2fvkxP.shtml

相关文章

Python案例分析｜文本相似度比较分析

Python案例分析｜文本相似度比较分析

本案例通过设计和实现有关文本相似度比较的类Vector和Sketch，帮助大家进一步掌握设计Python类来解决实际问题的能力。 01、文本相似度比较概述通过计算并比较文档的摘要可实现文本的相似度比较。文档摘要的最简单形式可以使用文档中的k-grams（k个连…

阅读更多...

计算机如何判断两篇文章相似性

计算机如何判断两篇文章相似性

这个仍然是极客时间上，关于《索引技术核心20讲》的一篇笔记同时结合自己的理解加了点料，这个专栏虽然只有20讲，但是真不错，老师解答问题还是很积极，回答字数经常比问题字数多。有兴趣的朋友可以到我星球（在…

阅读更多...

ai写文章检测原理（文章相似度检测）

ai写文章检测原理（文章相似度检测）

小编来了！今天要和大家聊一聊关于ai写文章检测原理的评测对比。究竟哪种方法更加高效准确呢？让我们一起来看看吧！ 概括：本文将从多个角度对ai写文章检测原理进行评测对比，包括算法准确性、速度、自动化程度、用户体验…

阅读更多...

【跨语言剽窃检测】文本相似度分析之一

【跨语言剽窃检测】文本相似度分析之一

对比文件1： 2010年的跨语言剽窃检测新方法作者RaFael Corezola Pereira instituion : UFRGS 摘要： 作者提出一个跨语言剽窃检测新方法，分为5个主要阶段： languange normalization、retrieval of candidate documents、classfier …

阅读更多...

文本相似度综述

文本相似度综述

本文目录文本相似度的定义文本相似度计算方法基于字符串的方法基于语料库的方法基于词袋VSMLSA、PLSALDA（需要进一步了解） 基于神经网络基于搜索引擎基于世界知识基于本体基于网络知识其他方法句法分析混合方法文本相似度的定义其中, common&#x…

阅读更多...

JAVA-计算两篇文章的相似度

JAVA-计算两篇文章的相似度

1.场景： 在很多公司的文件管理系统中，都有类似于对比多篇文章的相似度，例如在写公众号推文时，如果标记了原创，就会对比当前文章和库里已存在文章的相似程度，如果相似度过于高，则标记为原创的文章…

阅读更多...

免费好用的文章相似度检测软件推荐

免费好用的文章相似度检测软件推荐

相信很多人在写作的时候都会遇到这样的问题，就是怕自己写出的文章被抄袭。为了保证自己的原创性，我们需要使用一些文章相似度检测软件来帮助我们检测文章是否被抄袭。那么，有哪些免费好用的文章相似度检测软件呢？下面就为大家介绍…

阅读更多...

判断两篇文章的相似度

判断两篇文章的相似度

判断相似度基于jieba 关键字提取的方法textrank关键字的提取代码：tf-idf关键字的提取代码：统计数据统计数据的代码：完整代码： 基于jieba 关键字提取的方法 textrank 1，将待抽取关键词的文本进行分词 2，以…

阅读更多...

检测文章相似度的方法？文章原创度检测工具免费

检测文章相似度的方法？文章原创度检测工具免费

免费检测文章相似度的软件，什么是检测文章相似度的软件，简单来说就是原创检测工具，相信不少的朋友都在利用这个功能来检测自己文章的原创度是多少？要做好一篇文章真的只需要检测文章的相似度吗？答案：肯定是…

阅读更多...

[将小白进行到底] 如何比较两篇文章的相似度

[将小白进行到底] 如何比较两篇文章的相似度

其实这个题目已经有很多人写过了，数学之美里就有，最近阮一峰的博客里也写了，本文基本上遵循的就是他的思路，只是让其看起来再小白一点点。其实说白了就是用自己的话，再把同样一件事描述一下，顺便扩扩句&…

阅读更多...

文本相似度的检测

文本相似度的检测

项目原理基于词频：统计文章中词频，构建词频特征向量，利用特征向量夹角的余弦值表示文本的相似度。两篇文章最大相似度为1，特征向量夹角为0。基于词频的文本相似度检测步骤：文本1和文本2分词—去停用词统计两篇文章的词频词频向量1和词频向量2相似度的计算分词：例：“…

阅读更多...

网页抓取：PHP实现网页爬虫方式小结

网页抓取：PHP实现网页爬虫方式小结

抓取某一个网页中的内容，需要对DOM树进行解析，找到指定节点后，再抓取我们需要的内容，过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式，如果熟悉JQuery选择器，这几种框架会相当简单。一、Ganon …

阅读更多...

php中取页面的值_php如何抓取网页上的数据

php中取页面的值_php如何抓取网页上的数据

php中抓取网页内容的实例详解方法一：使用file_get_contents方法实现$url "http://news.sina.com.cn/c/nd/2016-10-23/doc-ifxwztru6951143.shtml"; $html file_get_contents($url); //如果出现中文乱码使用下面代码 //$getcontent iconv("gb2312…

阅读更多...

关于如何使用PHP抓取网页数据并进行处理的经验

关于如何使用PHP抓取网页数据并进行处理的经验

在网络时代，数据是无处不在的。很多时候，我们需要从网页上获取特定的数据，以便进行进一步的处理和分析。而PHP作为一种强大的编程语言，提供了丰富的函数和库来帮助我们实现这个目标。本文将分享一些关于如何使用PHP抓取网页数据并…

阅读更多...

php根据URL获得网页内容

php根据URL获得网页内容

php 中根据url来获得网页内容非常的方便，可以通过系统内置函数file_get_contents(),传入url,即可返回网页的内容，比如获得百度首页的内容代码为： <?php $html file_get_contents(http://www.baidu.com/);echo $html; 就可以显示出百度首…

阅读更多...

php抓取网页内容，获取网页数据

php抓取网页内容，获取网页数据

php通过simple_html_dom实现抓取网页内容，获取核心网页数据，将网页数据写入本地 xxx.json 文件其代码实现逻辑： 1. 引入simple_html_dom.php文件 require_once simple_html_dom-master/simple_html_dom.php; 2. 获取远程或者本地html文件…

阅读更多...

PS Adobe软件使用快捷键

PS Adobe软件使用快捷键

两年前学的，为了考一个高新怕自己忘了仅为防止以后自己忘记而做的备忘笔记，请勿吐槽图片类型 JPEG 有损压缩格式(能够将图像压缩在很小的储存空间，图像中重复或不重要的资料会被丢失，因此容易造成图像数据的损伤。尤其是…

阅读更多...

html选区控制怎么用,ps载入选区的快捷键是什么？

html选区控制怎么用,ps载入选区的快捷键是什么？

ps载入选区的快捷键是：ALTSO。在ps中，使用“ALTSO”快捷键，会弹出“载入选区”对话框，然后选择相应的通道，点击“确定”，即可载入选区。 ps载入选区有三种方法：右键菜单、ps载入选区快捷键、以及…

阅读更多...

计算机中的PS颜色填充快捷键,ps颜色填充快捷键【设置办法】

计算机中的PS颜色填充快捷键,ps颜色填充快捷键【设置办法】

喜欢使用电脑的小伙伴们一般都会遇到win7系统ps颜色填充快捷键的问题，突然遇到win7系统ps颜色填充快捷键的问题就不知道该怎么办了，其实win7系统ps颜色填充快捷键的解决方法非常简单，按照 1：首先我们先打开打开ps软件，…

阅读更多...

html自由变换图形,ps自由变换的快捷键是什么？

html自由变换图形,ps自由变换的快捷键是什么？

在当前图层中，执行“编辑”——“自由变换”，或者使用ps自由变换快捷键ctrlT，周围会出现变换控件定界框。当我们使用ps自由变换快捷键ctrlT，开启自由变换之后，然后再配合Ctrl、Shift、Alt，可以对图像进行缩…

阅读更多...

推荐文章