CHOLAN:一种模块化实体链接方法

article/2025/6/19 12:38:07

CHOLAN: A Modular Approach for Neural Entity Linking on Wikipedia and Wikidata

论文链接:https://arxiv.org/abs/2101.09969 (EACL 2021)

代码实现:https://github.com/ManojPrabhakar/CHOLAN

ABSTRACT

本文作者提出了实现在知识库上进行端到端实体链接的模块化方法——CHOLAN,该模型包含由两个 transformer-base model 构成的 pipeline。第一个 transformer 用于提取句子中的 mention,第二个 transformer 获取 mention context 和 entity description 并以此将 mention 分类到预定的候选实体集中。作者在实验中将实体链接到 Wikipedia、Wikidata 两个知识库中,并在 CoNLL-AIDA, MSNBC, AQUAINT, ACE2004, T-REx 数据集上取得了优于 SOTA 的表现。

1 简介

实体链接包含三个步骤:

  • mention detection:从句子中检测出实体提及
  • candidate generation:生成候选实体集合
  • entity disambiguation:通过语义消歧,从实体集合中选出最优实体

实体链接的方法主要分为以下三类:

  • 将 mention detection 和 entity diambiguation 作为独立的子任务,会导致将前一阶段的错误传播到后一阶段
  • 将 MD 和 ED 联合建模,强调两个子任务相互依赖
  • 将三个步骤联合建模,并认为这三个任务相互依存

作者认为 candidate generation 是影响 EL 模型性能的瓶颈,对此作者进行了探究。CHOLAN 在 以下数据集上取得了 SOTA 的成绩 T- REx for Wikidata; AIDA-B, MSBC, AQUAINT, and ACE2004 for Wikipedia。

2 相关工作

mention detection

mention detection 可以视为命名实体识别的任务,解决方案涉及以下几种: CRFs、特征字典构建、基于特征推理的神经网络、上下文编码

candidate generate

有四类主流方法:1. 预定义的候选实体集合;2. 字典查询(字典通过统计知识库关联别名构建);3. 经验概率实体图, p ( m ∣ e ) p(m|e) p(me)​;;4. 通过使用Wikidata 的实体标签、关联别名等数据扩展构建局部知识图

End2End EL

  • 2016 年:图模型。 J-nerd: joint named entity recogni- tion and disambiguation with rich linguistic features.

  • 2018 年:使用 Bi-LSTM 模型进行 MD,通过计算 mention detection embedding 和 candidate description 的相似度进行消歧,其中使用了预定义的 candidate 集合。 End-to-end neural entity linking.

  • 2019 年:使用 BERT 模型对三个子任务联合建模。Investigating entity knowl- edge in bert with simple neural end-to-end en- tity linking

  • 2020 年:使用 transformer 模型实现了三个子任务;基于启发式模型进行消歧;对于MD、ED 训练神经网络,并使用别名生成实体。

3 方法

在这里插入图片描述

3.1 Mention detection

使用了 Bert 预训练模型,将 [CLS][SEP] 添加到句子的首尾输入到 Bert 模型中。再使用逻辑回归将每个 token 分类到 BIO 标签上。作者使用了最新的 B E R T B A S E BERT_{BASE} BERTBASE​ 预训练参数,在非结构化的专门数据集上进行微调,如上图左下角所示。

3.2 Candidate generation

使用了 两个候选实体集,用来检验candidate generation 对entity linking 的影响:

  1. DCA 候选实体集 :由 2019 年论文Learning dynamic con- text augmentation for global entity linking 提出,根据概率实体图创建,每个 mention 有 30 个候选实体
  2. Falcon 候选实体集:由 2019 年论文 Old is gold: Linguistic driven approach for entity and relation linking of short text. 提出,从 Wikidata 中创建本地索引 KG,并通过别名进行扩展,本地索引 KG 通过 BM25 进行检索。作者使用 Wikipedia 对 Falcon进行了扩展,同时将 Wikipedia 中相关实体的第一段,作为 entity description 添加到 candidate 中。

3.3 Entity disambiguation

作者提出了 WikiBERT 模型,WikiBERT 衍生于 Bert 模型,并在实体链接数据集 (CoNLL-AIDA and T-REx) 上进行微调。作者声称:“WikiBERT 的创新之处在于 将局部的句子上下文和全局的 entity 上下文引入到了 transformer 中” (个人认为 BLINK, 2020 就已经提出了该方法)作者将 mention context 和 entity description 拼接到一起,以 SEP 分隔,输入到 BERT 中,将实体消歧视为句子分类问题。

句子中的 mention、context、entity 都是以下三种 embedding 的加和。

  1. token embedding:将 mention 以 | 分隔,放在 S1 头部;entity name 直接放在 entity description 的首部。
  2. segment embedding:每个序列都加上 mention context 和 entity description 的embedding
  3. position embedding:表示输入位置 i i i 的 embedding

模型的训练采用了 Pre-training of deep contextualized embeddings of words and entities for named entity disambiguation 2019 年提出的负采样的方法。

4 实验

对于Wikidata知识库,作者选择了 T-REx 数据集。对于 Wikipedia 知识库,作者选择了 CoNLL-AIDA 数据集进行训练,使用了 AIDA-B MSNBC AQUAINT ACE2004 数据集进行测试。

作者在 Wikidata 和 Wikipedia 两个知识库上对 baseline 进行了对比,CHOLAN 超过了以往的 SOTA 模型,同时作者分别在这两个KG上对 Candidate generation 和 entity dismbiguation 进行了消融实验。结果证明,选择更优的 candidate set 以及在消歧阶段引入 entity description 和 mention context 能显著提高模型性能。

改进空间:对于候选实体生成,可以使用 Zero- shot entity linking with dense entity retrieval. 2019 提出的 bi-encoder 的方法。


http://chatgpt.dhexx.cn/article/nhwXrXwy.shtml

相关文章

高清语音技术(WBS)及其在手机和蓝牙耳机中的实现

高清语音也被称为宽带语音,是一种能为蜂窝网络、移动电话和无线耳机传输高清、自然语音质量的音频技术。与传统的窄带电话相比,高清语音很大程度上提高了语音质量,减少了听觉负担。 通信产业链上的所有网络和设备都需支持高清语音才能体现出该…

蓝牙编码格式Codec的优先级配置

【Bluetooth】Android版本所支持的蓝牙协议code查询 Android版本所支持的蓝牙协议code查询方法: 协议配置文件有2个,一个是谷歌源生的,一个是高通自己添加的。 优先级:高通 > 谷歌。对于同一种协议会进行覆盖。 其中&#xff…

基于Android Q的蓝牙通话无声问题

分享一下这几天改蓝牙通话无声的bug,文章有点长,希望各位看官看完能帮助到大家—今天分析的主题是蓝牙通话没有声音之运行流程分析 一. 结果说在前面 ​ 蓝牙通话分别有七个阶段,基本上每个阶段都会走到底层,把数据回调到上层&a…

BQB pts测试

测试BQB的pts dongle是在蓝牙SIG官网买的,链接是 https://store.bluetooth.com/12210888/orders/d3b63cfd9d3d5a22c2e08ad9711a91c4 pts dongle最新的测试结果 ACS-BV-07-I/ACS-BV-12-I/ACS-BI-13-I 这三个是接完电话就fail ICA-BV-02-I/TCA-BV-01-I 这两个是挂不了电话 ICR-B…

蓝牙btsnoop log,HFP协议连接流程详解,以及RFCOMM连接和常用AT指令

HFP(Hands-Free):蓝牙免提协议,两个角色AG,HF端,AG端通常是手机设备,HF免提端一般为耳机车载等,hfp的连接首先要进行SDP,然后建立RFCOMM,然后SLC连接完成,HFP…

蓝牙协议HFP(Hands-Free Profile)电话免提协议 Connection management 连接管理HFP SLC 的建立跟释放

零. 概述 本文章主要讲下电话免提协议HFP(Hands-Free Profile)Connection management。包括connection establishment 跟connection realease,那connection establishment又会涉及到HFP SLC的建立过程。 本节讲解的内容就是一下HFP fea…

蓝牙A2DP和HFP编解码

一、A2DP A2DP全名是(Advanced Audio Distribution Profile) 蓝牙音频传输模型协定,提供通过蓝牙连接传输音频流的能力,比如手机播放音乐,蓝牙耳机通过蓝牙连接听歌。 mp3和flac音频编码都是在PCM音频编码基础上二次编…

Rockchip安卓11.0 16k wbs msbc HFP PCM语音通话支持

Rockchip安卓11.0 16k wbs/msbc HFP PCM语音通话支持 调试平台: 安卓11.0, rk3328, 博通ap6212芯片, HFP 8K已经调通的情况下. SDK修改支持16k wbs/msbc HFP PCM语音注意点如下: 1. bluedroid(system/bt) 博通方案中, ESCO_DATA_PATH_PCM 为1代表蓝牙芯片作为pcm master, 6…

蓝牙电话之HFP-电话音频

蓝牙电话之HFP协议中的电话音频 蓝牙技术通信的内容多种多样,其中音频部分包含媒体音频和电话音频。 媒体音频:播放蓝牙音乐的数据,这种音频对质量要求高,数据发送有重传机制,从而以l2cap的数据形式走ACL链路。编码方…

VSCode 按下tab键自动补全功能失效

问题描述:标签自动补全插件已经安装,某天按下tab键自动补全标签的功能突然失效了。解决方法: 1、找到路径 file > Preferences >settings 2、搜索tabs,选择Extensions里面的Emmet,将复选框的√打上就ok啦!

javascript 按下回车键触发input表单的切换(enter键代替tab键功能)

本来是想用js代码去模拟键盘按下来实现该功能&#xff0c;但是没有实现到。后来想到一种比较笨的方法。局限性是只能这些表单元素只能在同个层面下才能切换。 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><m…

sublime text3 tab键功能失效

选择首选项 -> 快捷键设置 出现下面编辑页 在右边添加下面一些设置&#xff08;记得要用逗号与前面内容分开&#xff09;&#xff1a; { "keys": ["tab"], "command": "reindent", "context":[{ "key": "…

计算机键盘上的2个定位键,电脑键盘上Tab 键的神奇之处!(用途详解)

下面通过实例来详细解释下&#xff1a; 假设“D:\cfan”路径下&#xff0c;有文件夹&#xff1a; a、 ab &#xff0c;有文件&#xff1a; abc.txt &#xff0c; ac.txt 。依次点击“开始→运行”输入“cmd”&#xff0c;按下回车打开命令提示符。先输入“D:”&#xff0c;回车…

微型计算机上的tab作用,TAB键有什么用处

Tab键对大家来说都是比较熟悉吧。比如写文章时开头要空两格就可用这个键。但是它还有什么特殊功能呢&#xff0c;不一定是大家都知道的。下面小编来详细的介绍下几种tab键的常见功能 tab键作用一&#xff1a;改变焦点 聚焦到下一个按钮&#xff0c;输入框或者链接等。例如&…

计算机键盘上的tab键是什么键,电脑Tab键有什么用处

电脑Tab键有什么用处 Tab键对大家来说都是比较熟悉吧。比如写文章时开头要空两格就可用这个键。但是它还有什么特殊功能呢&#xff0c;不一定是大家都知道的。下面小编来详细的介绍下几种tab键的常见用处&#xff1a; tab键作用一&#xff1a;改变焦点 聚焦到下一个按钮&#x…

电脑Tab键有什么功能?6个实用功能总结!

我最近对电脑的键盘很有兴趣&#xff0c;想了解一下各个键有什么特殊的用法。今天正好看到Tab键&#xff0c;想问下大家知道电脑的Tab键有什么比较好用的功能吗&#xff1f; 在电脑键盘上&#xff0c;Tab键是一个常见的键&#xff0c;它具有多种功能和用途。无论是在文本处理、…

tab键功能

tab 键可以实现命令及路径等补全&#xff0c;提高输入效率&#xff0c;避免出错 tab键可以命令补全&#xff0c;还有路径、文件名补全。 命令补全&#xff1a; 在Linux命令行下&#xff0c;输入字符后&#xff0c;按两次Tab键&#xff0c;shell就会列出以这些字符打头的所有…

计算机键盘上的tab键是什么键,键盘Tab键有什么作用?

Tab键——跳格键&#xff0c;大家都比较熟悉了吧&#xff0c;但是到底它有什么特殊的使用功能&#xff0c;却未必是大家都知道的哦。今天就将Tab键的几种使用功能进行了整理&#xff0c;大家可以参考学习学习。 1、跳格。当我们在网页输入表单的时候&#xff0c;在一个输入控件…

电脑Tab键有什么用

Tab键对大家来说都是比较熟悉吧。比如写文章时开头要空两格就可用这个键。但是它还有什么特殊功能呢&#xff0c;不一定是大家都知道的。下面我来详细的介绍下几种tab键的常见用处&#xff1a; tab键作用一&#xff1a;改变焦点 聚焦到下一个按钮&#xff0c;输入框或者链接等…

电脑Tab键有什么功能?分享Tab键的6个妙用

Tab键tabulator key 的缩写&#xff0c;意思是跳格键。基本用法是可以用来绘制无边框的表格&#xff0c;还可以在单词间留下间隔&#xff0c;一般等于八个空格的长度。但是您知道电脑Tab键有什么功能吗&#xff1f;以下一些关于Tab键的使用和功能的介绍&#xff0c;希望这些可以…