【跨语言剽窃检测】文本相似度分析之一

article/2025/5/17 2:19:25

对比文件1: 2010年的跨语言剽窃检测新方法
作者RaFael Corezola Pereira
instituion : UFRGS
摘要:
作者提出一个跨语言剽窃检测新方法,分为5个主要阶段: languange normalization、retrieval of candidate documents、classfier training、plagiarism analysis 、post processing
在摘要中作者还说明手动构建一个数据集,并且比较单语上的和跨语言的(跨语言上达到单语的baseline上的86%的perfomance),并且分析剽窃文本的长度是否会影响方法的性能。指出在长篇或者中篇上性能比较好;
1 Introduciton
跨语言剽窃: 词义的改写 、 词序;所以跨语言剽窃很难被检测到
cross-language plagiarism can also involve self-plagiarism
本文目的提出CLPA(cross-Language plagiarism Analysisi)
作者说他们的方法主要不同点就是用到一个分类算法,区别剽窃文本和非剽窃文本
tow areas:

  1. extrinsic plagiarism analysis: use a reference collection
  2. intrinsic plagiarism analysis without reference collection,这种方式经常考虑的是写作被怀疑的文档的写作风格

本文中,关注的是extrinsic plagiarism检测.
作者用到一个自动翻译工具,把suspicious 和 source documents翻译到一种公共语言,for analyze them in a uniform way
在normalization phase, 作者用一个分类算法构建一个模型,学习plagiarized和non-plagiarized text passage的区别。

作者使用信息检索系统检索那些suspicious documents

人工构建EClaPa数据集。 基于Euoparl Parallel Corpus

3 The Method
在这里插入图片描述

3.1 language Normalization
把seveal language document 转成一种common language. 默认用英语;因此用到翻译工具,before translating, the language in which each document was written is identified using a language guesser.

3.2 Retrieval of Candidate Documents
从信息检索系统捞出那些suspicous document;
作者说明在整个参考文件的collection中检索suspicious document是not feasible。只能检索其中a small subset of the collection

把original document切分几个subdocuments,然后索引化

split and indexed the reference collection。系统就能够查询检索candidate subdocuments. suspicious document也被分成几个部分,用来查询index.

3.3 feature selection and classifier training
分类器吃进一个suspicious passage和 one of the candidate subdocuments
(1)cosine similarity: 不考虑词序,
(2)similarity score: IR系统与candidate subdocument
(3)the rank about candidate subdocument
(4)the length of suspicious and the candidate subdocument

3.4 plagiarism analysis
根据第3.3的分类器,

3.5 post -processing 结果
为了实现连续检测,确实suspicious是抄袭基本部分还是一个整体,所以作者用到启发式方法。

二、关于对比文件2的思路梳理
作者:何文垒
2011年12月 上海交通大学
在这里插入图片描述

从所给的算法可以看出先对文本进行求语义hash
作者的消歧用语义哈希来做,基于wordnet语义密度的名词消岐
跨语言文本相似度计算:
提取特征部分:
1.作者简历语义中间层,将输入文本映射到语义中间层
基于语义频率的特征过滤方法
作者只提名词特征
作者对文本预处理,取出其中标点、html标记;
分词、词性标注,得到名次
在wordnet查找名词得到名词序列 W(d) = {1,2,3,… n}

how:
建立语义中间层
将输入的文本映射到语义中间层
提取输入文本的特征
对特征进行过滤
相似度计算

3.4.2 基于语义频率的特征过滤
向量空间模型计算monolingual文本相似度方法, tf-idf加权向量
作者说,文本的特征是以名词语义哈希序列的形式来表现
语义频率: 一个词在document出现多次,它的词义哈希必然也会出现多次,所以有tf类似的信息

3.4.3 相似度计算
A语言的输入样本d 哈希序列特征为:F(d)= {}
B语言输入样本d'. F(d')
用的是Dice系数
在这里插入图片描述
在这里插入图片描述

专家评审意见:
1. 特征的构建
专家意见说: 对比10年的论文,专家指出李的论文做法
在这里插入图片描述

并指出:李的做法是常用做法,没有创新性;

2.检测跨语言剽窃:
专家意见: wordnet做法与提交专利相同,不具备创新性
专家说与对比文件2 的基于WordNet的中英文跨语言文本相似度研究 何的论文

答复第1点

李光曦的论文要点

在这里插入图片描述

第3章 基于多特征的跨语言剽窃分类
在这里插入图片描述

3.1 语料库的建设与文本预处理
1.翻译得到语料集
2.原创性中文文章
中文的文本---- 分词与pos---- 处理后的文本集合
分词用的是NLPIR2016 处理 pos
翻译欧化的问题:-----》 构建特征

3.2 特征构建与选择(这一块是重点,要向专家汇报不同,特别注意,反复思考,专家说这一个与提供的两篇对比论文相同,不具备创新性,所以要解释清楚)
特征构建方面,作者针对七种
特征选择:
卡方检测没考虑词频,较低的且在类别中不稳定的特征
1) 改进卡方检测
1.计算tf, 每个特征项在每篇文档中的频数tf1、tf2…tfm
3.3 SVM(分类模型构建,可以看做是对比文件)

第4章 基于特征对应的跨语言剽窃检测

在这里插入图片描述

4.1 段落的自动划分与英文词性标注
pdf转成xml格式,切分成段落进行分析,多线程进行文档的批处理
师兄提出算法:基于标签的***过滤与段落合并算法
针对专家说的预处理方法,把pdf转成xml格式进行辩述

4.2 基于译文特征对应的剽窃结果第1次过滤译文
翻译欧化问题:
根据中英文特征出现的位置,选择37个有效特征,
中文与en可能有1:n的情况,因此

5 段落之间的距离计算方法:
段落 是由句子组成,然后看确定的特征在每个句子有多少
先确定37个特征在句子中的存在情况
得到句子表示
然后计算段落距离

-基于4.2 得到了中英文段落之间的距离,因此会得到一个集合 中文剽窃英文, 英文是目标 中文是源, 第三章是构建特征 4.2根据上述译文特征 表示句子 由此可得到段落的表示,最后计算cn-en之间段落的距离,然后根据cn的一个段落, en可能有多个段落与之距离比较小,这样就得到一个en集合

4…3 基于结构特征对应的剽窃结果第2次过滤
结构特征: 句子的长度,句子中noun的长度、句子中动词的长度、形容词的长度、副词的长度

4.4 wordnet的对剽窃结果确认
引入Wordnet的跨语言文本相似度计算方法对4.2 和4.3的结果在确认,

本文基于中英文wordnet词典,通过名词语义hash建立中间指纹编码,将两种语言共同映射到同一种数值空间上,进行相似度比较
1) 先进行编码,对wordnet名词同义词进行中间指纹编码-- 把名词同义词集映射到同一个数值空间
2)消歧 基于语义密度,
3) 指纹选取与相似度计算
取出分辨率较大的指纹进行相似度计算 tf-idf算法算去指纹
多次出现的名词 tf大 保留
idf


http://chatgpt.dhexx.cn/article/gTLj0qTc.shtml

相关文章

文本相似度综述

本文目录 文本相似度的定义文本相似度计算方法基于字符串的方法基于语料库的方法基于词袋VSMLSA、PLSALDA(需要进一步了解) 基于神经网络基于搜索引擎 基于世界知识基于本体基于网络知识 其他方法句法分析混合方法 文本相似度的定义 其中, common&#x…

JAVA-计算两篇文章的相似度

1.场景: 在很多公司的文件管理系统中,都有类似于对比多篇文章的相似度,例如在写公众号推文时,如果标记了原创,就会对比当前文章和库里已存在文章的相似程度,如果相似度过于高,则标记为原创的文章…

免费好用的文章相似度检测软件推荐

相信很多人在写作的时候都会遇到这样的问题,就是怕自己写出的文章被抄袭。为了保证自己的原创性,我们需要使用一些文章相似度检测软件来帮助我们检测文章是否被抄袭。那么,有哪些免费好用的文章相似度检测软件呢?下面就为大家介绍…

判断两篇文章的相似度

判断相似度 基于jieba 关键字提取的方法textrank关键字的提取代码:tf-idf关键字的提取代码:统计数据统计数据的代码:完整代码: 基于jieba 关键字提取的方法 textrank 1,将待抽取关键词的文本进行分词 2,以…

检测文章相似度的方法?文章原创度检测工具免费

免费检测文章相似度的软件,什么是检测文章相似度的软件,简单来说就是原创检测工具,相信不少的朋友都在利用这个功能来检测自己文章的原创度是多少?要做好一篇文章真的只需要检测文章的相似度吗?答案:肯定是…

[将小白进行到底] 如何比较两篇文章的相似度

其实这个题目已经有很多人写过了,数学之美里就有,最近阮一峰的博客里也写了,本文基本上遵循的就是他的思路,只是让其看起来再小白一点点。其实说白了就是用自己的话,再把同样一件事描述一下,顺便扩扩句&…

文本相似度的检测

项目原理 基于词频:统计文章中词频,构建词频特征向量,利用特征向量夹角的余弦值表示文本的相似度。两篇文章最大相似度为1,特征向量夹角为0。 基于词频的文本相似度检测步骤: 文本1和文本2分词—去停用词统计两篇文章的词频词频向量1和词频向量2相似度的计算分词:例:“…

网页抓取:PHP实现网页爬虫方式小结

抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单。 一、Ganon …

php中取页面的值_php如何抓取网页上的数据

php中抓取网页内容的实例详解 方法一:使用file_get_contents方法实现$url "http://news.sina.com.cn/c/nd/2016-10-23/doc-ifxwztru6951143.shtml"; $html file_get_contents($url); //如果出现中文乱码使用下面代码 //$getcontent iconv("gb2312…

关于如何使用PHP抓取网页数据并进行处理的经验

在网络时代,数据是无处不在的。很多时候,我们需要从网页上获取特定的数据,以便进行进一步的处理和分析。而PHP作为一种强大的编程语言,提供了丰富的函数和库来帮助我们实现这个目标。本文将分享一些关于如何使用PHP抓取网页数据并…

php根据URL获得网页内容

php 中根据url来获得网页内容非常的方便&#xff0c;可以通过系统内置函数file_get_contents(),传入url,即可返回网页的内容&#xff0c;比如获得百度首页的内容代码为&#xff1a; <?php $html file_get_contents(http://www.baidu.com/);echo $html; 就可以显示出百度首…

php抓取网页内容,获取网页数据

php通过simple_html_dom实现抓取网页内容&#xff0c;获取核心网页数据&#xff0c;将网页数据写入本地 xxx.json 文件 其代码实现逻辑&#xff1a; 1. 引入simple_html_dom.php文件 require_once simple_html_dom-master/simple_html_dom.php; 2. 获取远程或者本地html文件…

PS Adobe软件使用 快捷键

两年前学的&#xff0c;为了考一个高新 怕自己忘了 仅为防止以后自己忘记而做的备忘笔记&#xff0c;请勿吐槽 图片类型 JPEG 有损压缩格式(能够将图像压缩在很小的储存空间&#xff0c;图像中重复或不重要的资料会被丢失&#xff0c;因此容易造成图像数据的损伤。尤其是…

html选区控制怎么用,ps载入选区的快捷键是什么?

ps载入选区的快捷键是&#xff1a;ALTSO。在ps中&#xff0c;使用“ALTSO”快捷键&#xff0c;会弹出“载入选区”对话框&#xff0c;然后选择相应的通道&#xff0c;点击“确定”&#xff0c;即可载入选区。 ps载入选区有三种方法&#xff1a;右键菜单、ps载入选区快捷键、以及…

计算机中的PS颜色填充快捷键,ps颜色填充快捷键【设置办法】

喜欢使用电脑的小伙伴们一般都会遇到win7系统ps颜色填充快捷键的问题&#xff0c;突然遇到win7系统ps颜色填充快捷键的问题就不知道该怎么办了&#xff0c;其实win7系统ps颜色填充快捷键的解决方法非常简单&#xff0c;按照 1&#xff1a;首先我们先打开打开ps软件&#xff0c;…

html自由变换图形,ps自由变换的快捷键是什么?

在当前图层中&#xff0c;执行“编辑”——“自由变换”&#xff0c;或者使用ps自由变换快捷键ctrlT&#xff0c;周围会出现变换控件定界框。 当我们使用ps自由变换快捷键ctrlT&#xff0c;开启自由变换之后&#xff0c;然后再配合Ctrl、Shift、Alt&#xff0c;可以对图像进行缩…

计算机中的PS颜色填充快捷键,ps颜色填充快捷键【解决技巧】

很多小伙伴都遇到过ps颜色填充快捷键的困惑吧&#xff0c;一些朋友看过网上零散的ps颜色填充快捷键的处理方法&#xff0c;并没有完完全全明白ps颜色填充快捷键是如何解决的&#xff0c;今天小编准备了简单的解决办法&#xff0c;只需要按照 1&#xff1a;首先我们先打开打开ps…

计算机中的PS颜色填充快捷键,ps中填充颜色的快捷键是什么(填充Shift+F5)

很多小伙伴都遇到过ps颜色填充快捷键的困惑吧&#xff0c;一些朋友看过网上零散的ps颜色填充快捷键的处理方法&#xff0c;并没有完完全全明白ps颜色填充快捷键是如何解决的&#xff0c;今天小编准备了简单的解决办法&#xff0c;只需要按照下面方法操作就行。 PS填充快捷键是S…

PS常用快捷键

PS常用快捷键 1. PS工具快捷键2. 常用的通用快捷键2.1 文档操作2.2 画面显示操作2.3 其他操作 3. 图层操作的快捷键4. 图像调整操作快捷键5. 移动工具模式快捷键6. 选区类工具模式快捷键6.1 选框工具模式6.2 套索工具模式6.3 快速选择工具模式 7. 画笔工具模式快捷键 声明&…

html5如何快速选择工具,PS快速选择工具怎么使用?快捷键是什么?

快速选择工具是创建选区时使用频率相当高的一个工具&#xff0c;不但使用起来十分方便&#xff0c;创建的选区精度也十分高。下面我们就一起来看看PS快速选择工具怎么使用&#xff1f;快捷键是什么吧&#xff01; 1、快速选择工具 快速选择工具使用一个可以调节大小的原型笔尖来…