【论文笔记】中文词向量论文综述(一)

article/2025/8/19 16:04:48

导读

最近在做中文词向量相关工作,其中看了一些中文词向量的相关论文,在这篇文章,将把近几年的中文词向量进展及其模型结构加以简述,大概要写3-4篇综述,每篇包含2-3篇论文

 

一、Component-Enhanced Chinese Character Embeddings

论文来源

这是一篇2015年发表在EMNLP(Empirical Methods in Natural Language Processing)会议上的论文,作者来自于香港理工大学 — 李嫣然。

Abstract

在目前的NLP各项任务中,词向量已经得到了广泛的应用并取得了很好的效果,然而大多数是对于英文等西方语言,对于中文,由于中文汉字包含了巨大的信息,在中文词向量的工作中有很大的提升,这篇论文认为汉字的组件(部首)包含了大量的语义信息,基于此提出了两个词向量模型,对中文字向量进行了改善,实验结果表明在文本分类已经词相似度上都得到了提升。

Model

模型结构图如下,具体做法是抽取每个汉字的组件组成一个component列表(可以从在线新华词典获取component列表),部首信息要比其他的组件信息包含更加丰富的语义信息,所以,把部首放在了component列表的首位进行训练,下图中的E代表的就是component列表,C代表的是上下文词, Z代表的是目标词。 

具体做法,以charCBOW为例,charCBOW是在原始的CBOW的基础之上进行的改善,把E和C进行cat连接作为特征。

也提供了一些部首信息,如下图

Experiment Result

在Word Similarity 和 Text Classification 上面进行了实验,对于Word Similarity任务,可以参考以前写的一篇文章 — 中英文词向量评测。

Word Similarity采用的评估文件大多数都是基于英文构建的,像 WS-353,RG-65等,对于中文来说,仅有HowNet和 E-TC(哈工大词林),由于HowNet包含较少的现代词,选择采用E-TC进行评测;Text Classification 选择的数据集是腾讯新闻(Tencent news datasets),在Word Similarity 和 Text Classification上面都验证了论点。下图是实验结果。

 

二、 Joint Learning of Character and Word Embeddings

论文来源

这是一篇2015年发表在IJCAI (International Joint Conference on Artificial Intelligence)会议上的论文,作者来自于清华大学 — 陈新雄,徐磊。

Abstract

目前,大多数词向量的建模方法都是基于词的,而在中文词语包含多个汉字,并且每个汉字都包含了大量丰富的信息,一个词的语义信息也是与组成它的汉字有很深的关联,比如,智能 這个词,智 和 能 也能够表达一部分其语义,基于這个思想,论文提出了训练中文词向量新的方法,使用汉字来增强词的效果(CWE)。

但是训练CWE存在一些问题,像单个汉字可能存在多种意义,有些汉字组成的词,其中的汉字分开时没有意义的等一些问题,文中提出了 multiple-prototype character embedding 和 an effective word selection method 分别来解决问题。在 Word Relatedness Computation 和 Analogical Reasoning任务上验证了其有效性。

Model

Character-Enhanced Word Embedding

CWE是在CBOW的基础之上进行的改进,CWE和CBOW的模型结构图如下图所示。

像上图表示的一样,词由词和组成它的字联合表示,具体表示是下面的公式, w代表word embedding,c代表的是character embedding,N代表一个词有多少字组成,有两种联合方式,一种是 addition ,一种是 concatenation。

在实验过程中发现 addition 要优于 concatenation,后续实验过程中都采用addition的联合方式,并且对公式进行了简化,在上个公式基础之上,取词和字的平均,如下图。

CWE的核心思想是把CBOW中的词替换成词和字的联合表示,但是仍然和CBOW共用相同的目标函数,這样做的一个好处在于,即使词没有出现在上下文的窗口之中,word embedding也会根据character embedding进行调整,完善了CBOW的這个缺点。

Multiple-Prototype Character Embeddings

由于有些中文汉字存在很大的歧义性,在CWE模型中可能会带来消极的影响,为了解决汉字的歧义性问题,提出了Multiple-Prototype Character Embeddings,核心的思想是一个汉字使用多个character embedding表示,具体的又提出了三种方案,Position-based character embeddings,Cluster-based character embeddings,Nonparametric cluster-based character embeddings。下面简单的看一下這三种方案。

  1. Position-based character embeddings 在一个词的内部,字的位置有很大的作用,不同的位置表达不同的意思,這个方案里面,保持单字三个不同的位置embedding,分别是B---Begin,M---Middle,E---End,如下图所示。

    和CWE最初的方式差不多,不同在于character embedding的表示采用了BME的平均,具体如下。

  2. Cluster-based character embeddings 根据2012年Huang的一篇论文(multiple-prototype word embeddings)提出的一个方法,提出了Cluster-based character embeddings的方法,对 character 所有出现的情况做聚类, 为每个聚类分配一个向量,具体的如下图。

    這时候词的表示如下图

    其中r_max是计算余弦相似度(S),计算公式如下

    v_context如下,其中c_most代表的是在聚类中最频繁被选择的。

  3. Nonparametric cluster-based character embeddings Cluster-based character embeddings具有固定的类数, 而无参聚类方法能分配不同的数量, 在训练的时候学习,非常灵活。

Word Selection for Learning

中文词语中,有很多的字并不能够表示其语义信息,这些包括以下几个方面。

  1. 像徘徊,琵琶這样的词语,其中的单字很难在其他的词语中使用。

  2. 音译过来的一些词,像沙发(sofa),巧克力(chocolate) 主要是语音合成。

  3. 一些实体的名字,像人名,地名,组织机构名等。

为了去解决這样的问题,提出在学习這些词的时候,不要去考虑其character,具体的做法是手工构建這样的词表来处理。

Experiment Result

在 Word Relatedness Computation 和 Analogical Reasoning任务上验证了其有效性,对于這两个任务,可以参考以前写的一篇文章 — 中英文词向量评测。

  1. Word Relatedness Computation 采用的评测数据是 wordsim-240,wordsim-296,以下是评测结果。 

  2. 对于Analogical Reasoning,由于没有中文的评测数据,手工构建了一份数据集,并且這个数据集在后续的中文词向量评测中被广泛使用。

 

References

[1] Component-Enhanced Chinese Character Embeddings

[2] Joint Learning of Character and Word Embeddings

 

作者 github

这是我师兄,也是我老板

一图胜千言!

github地址:

https://github.com/bamtercelboo

欢迎大家Star和Fork。干货满满!


更多精彩内容,请关注 深度学习自然语言处理 公众号,就是下方啦!跟随小博主,每天进步一丢丢!哈哈!


http://chatgpt.dhexx.cn/article/w0YZHLWC.shtml

相关文章

超分论文综述( DualCNN,Deep SR-ITM ,DSGAN)

论文来源: [1] Pan, J., Liu, S., Sun, D., Zhang, J., Liu, Y., Ren, J., ... & Yang, M. H. (2018). Learning dual convolutional neural networks for low-level vision. In Proceedings of the IEEE conference on computer vision and pattern recognit…

【论文笔记】知识图谱综述2021

KRL - Knowledge Representation Learning 在知识表示学习里,我们希望把实体和关系映射到低维空间上,这样便于我们提取实体与关系的特征表示。这时我们的思路可以是: which representation space to choose 本文描述了4种表示空间&#xff1…

目标检测论文综述(四)Anchor-Free

——CNN based Anchor-Free Detectors 所有论文综述均保持如下格式: 1、一页PPT内容总结一篇论文 2、标题格式一致:出处 年份 《标题》 3、内容格式一致:针对XX问题;提出了XX方法;本文证明了XXX 4、把握核心创新点&am…

本科毕业论文内容必须有国内外文献综述吗?

不知不觉间整个暑假变过去了,现在大部分的大学生都已经开学了。2023届毕业的学生现在也开始借鉴毕业论文的选题工作。但是无论是现在正在选题的大四的同学们还是还在上大一大,二大三的同学们都对毕业论文这4个字有着天生的恐惧感。因为对于大多数人来说&…

OCR论文综述(含文字识别、文本检测、端到端和数据集合)

OCR综述概览 主要分为四个部分 文字识别、文本检测、端到端文字识别和数据集的介绍 1. 文字识别 指标为f1-score Conf.NetTitleSVTIIIT5KICDAR13TPAMI2015CRNNAn end-to-end trainable neural network for image-based sequencerecognition and its application to scene t…

医学诊断报告生成论文综述

摘要 由Image/Video Captioning、VQA等图像理解任务的不断往前发展,以及目前智能医疗的兴起,有些学者自然而然地想到图像理解是否可以应用到医学领域,因此根据CT、核磁等图像自动生成诊断报告(病例),这个任务被提了出来。 2018年…

目标检测论文综述(三)One-Stage(YOLO系列)

一、CNN based One-Stage Detectors 所有论文综述均保持如下格式: 1、一页PPT内容总结一篇论文 2、标题格式一致:出处 年份 《标题》 3、内容格式一致:针对XX问题;提出了XX方法;本文证明了XXX 4、把握核心创新点&…

【半监督论文综述】A survey on semi-supervised learning

下载 半监督学习 1. 半监督学习1.1 三个假设1.1.1 平滑假设1.1.2 低密度假设1.1.3 流形假设1.1.4 聚类假设 1.2. 评估半监督学习算法 2. 半监督学习算法分类2.1 Inductive methods2.1.1. Wrapper methods2.1.1.1 Self-training2.1.1.2 Co-Training2.1.1.2.1 Multi-view co-tra…

综述类论文怎么写?

综述类论文的关键点在于必须要有一个明确有效的叙述结构。严格来说,这类文章并没有固定的结构安排要求,但一个科学有效的叙述结构不仅会让作者的表达逻辑更为清晰和条理,还能帮助读者减少阅读困难,提高阅读效率,对论述…

视频理解论文综述

A Comprehensive Study of Deep Video Action Recognition TSN网络是一个很经典的网络,如果不知道的自己查... 基于TSN的改进论文分了三大类: 其他资料: Temporal Segment Network TSN提出的背景是当时业界做动作识别都是用 Two-stream …

毕业论文第一步--如何快速写出让人眼前一亮的文献综述论文(citspace)

一、文献综述是什么? 文献综述简称综述,是对某一领域,某一专业或某一方面的课题、问题或研究专题搜集大量相关资料,然后通过阅读、分析、提炼、整理当前课题、问题或研究专题的最新进展、学术见解或建议,对其做出综合性…

论文综述是写什么?

各位客官,走过路过不要错过,现在的你可能是一名刚步入大学的论文新手,也可能是一名刚上大四的学生,正准备开始写毕业论文。那么这篇文章我来给大家讲讲论文的综述是究竟是要写什么,为什么说文献综述奠定了一篇论文的优…

Matlab初始化太慢及相应的设置方法

前几天装的MATLAB2017,但是初始化太慢的问题一直没解决,如下: 等4-5分钟才就绪,真的很浪费时间,然后百度别人的解决方案,看到网上很多是文字描述,实践的截图都没几个(本人喜欢图文解…

matlab四维插值程序,matlab练习程序(向量插值)

有两个向量,我们想从起始向量平滑的过度到终止向量,那么中间的向量就可以通过插值的方式得到。 这在图形学中图形旋转或者机器人中物体姿态旋转都可以用到。 有三种方法:Lerp,NLerp和SLerp。 Lerp为线性插值,公式如下: NLerp为线性插值后归一化,公式如下: SLerp为球面插…

MATLAB程序设计

文章目录 1 程序基础2 数据类型和运算2.1 常量和变量2.2 数值数据2.3 字符数据2.4 逻辑数据类型2.5 日期和时间2.6 单元数组和结构体 3 数组与矩阵3.1创建数组3.2 数组运算3.3 数组处理函数3.3.1 zero/ones函数3.3.2 size/length函数3.3.3 max/min函数3.3.4 isempty函数3.3.5 u…

matlab-m脚本调用simulink无法运行的原因(本身设置了初始化函数

matlab-m脚本调用simulink无法运行的原因(本身设置了初始化函数) 最近从MATLAB中调用simulink模块老是不成功一直提示如下错误: 该错误的意思是,在运行PosControl这个模块之前,它本身还会运行自己设置的初始化函数In…

Isight与MATLAB联合仿真时出现:无法定位或初始化类(unsupported major minor version 52.0)

文章目录 一、报错页面二、解决方法三、仿真示例四、运行注意事项 一、报错页面 Isight 调用MATLAB的时候,MATLAB页面报错,出现如下页面: 二、解决方法 解决方法如下: 双击malab组件 1.选择options 2.Drive Matlab with Jav…

VS2019调用Matlab2019b生成的dll时初始化异常

VS2019调用matlab动态链接库遇到的问题 在Visual Studio中使用C调用Matlab程序VS与MATLAB版本选择VS与MATLAB混编的环境配置初始化异常的解决0xc0000005处理Debug错误:xsd_binder::MalformedDocumentError 在Visual Studio中使用C调用Matlab程序 我目前在写一个用V…

MATLAB一直显示“正忙”或“初始化”

解决方案 1 MATLAB 在启动时,一直停留在“正在初始化”的状态,有可能是因为 MATLAB 一直在找着本机的许可证。 有可能是设置了 LM_LICENSE_FILE 的环境变量。这个变量告诉 MATLAB 或者其他应用程序去哪里查找许可证文件。如果您有一个网络许可证&#xf…

C++和MATLAB混合编程——初始化mwArray失败解决方法!

首先,按这样设置, [填坑]VS2017与MATLAB2016b混合编程(生成dll方式)_清凉简装的博客-CSDN博客_matlab生成dllMATLAB 生成 dll 前的工作1、配置MATLAB环境控制面板->所有控制面板项->系统->高级系统设置->高级->环…