知识图谱入门知识(一)知识图谱应用以及常用方法概述

article/2025/1/15 21:06:01

学习内容

搜集各种博客,理解实体识别、关系分类、关系抽取、实体链指、知识推理等,并且总结各种分类中最常用的方法、思路。
由于自己刚刚接触知识图谱,对该领域的概念和方法的描述还不是很清楚,所以只是简单的列出框架和添加链接,之后会进行补充。

1. 实体识别

原文地址:链接
介绍相关概念的: 链接

1.1 方法概述

在这里插入图片描述
早期的命名实体识别方法大都是基于规则的,系统的实现代价较高;
但是进入21世纪后,基于大规模语料库的统计方法逐渐成为自然语言处理的主流,一大批机器学习方法被成功地应用于自然语言处理的各个方面。根据使用的机器学习方法的不同,我们可以粗略地将基于机器学习的命名实体识别方法划分为如下四种:有监督的学习方法、半监督的学习方法、无监督的学习方法、混合方法。

1.2 命名实体识别方法

1.2.1 基于CRF的命名实体识别方法

CRF:条件随机场; 也是最成功的命名实体识别方法,受到工业界的广泛使用。
基于CRF的命名实体识别与前面介绍的基于字的汉语分词原理一样,就是把命名实体识别过程看作一个序列标注问题。 基本思路是:将给定的文本首先进行分词处理,然后对人名、简单地名和简单的组织机构名进行识别,最后识别复合地名和复合组织机构名。

1.2.2 基于多特征的命名实体识别方法

在命名实体识别中,无论采用哪一种方法,都是试图充分发现和利用实体所在的上下文特征和实体的内部特征,只不过特征的颗粒度有大(词性和角色级特征)有小(词形特征)的问题。考虑到大颗粒度特征和小颗粒度特征有互相补充的作用,应该兼顾使用的问题,提出了基于多特征相融合的汉语命名实体识别方法,该方法是在分词和词性标注的基础上进一步进行命名实体的识别,由词形上下文模型、词性上下文模型、词形实体模型和词性实体模型4个子模型组成的。其中,词形上下文模型估计在给定词形上下文语境中产生实体的概率;词性上下文模型估计在给定词性上下文语境中产生实体的概率;词形实体模型估计在给定实体类型的情况下词形串作为实体的概率;词性实体模型估计在给定实体类型的情况下词性串作为实体的概率。

2.关系分类

原文地址: 链接

2.1 简介

给定一段自然语言文本以及该文本中出现的若干实体( e 1 . . . e n e_{1}...e_{n} e1...en),关系分类(relation classification)任务的目的是识别这些实体( e 1 . . . e n e_{1}...e_{n} e1...en)之间满足的语义关系关系分类也叫做关系抽取、关系识别等)。由于全部可能的关系集合通常是预先指定好的(例如知识图谱中的全部谓词(边上的标注/关系)),因此该任务可以采用分类方法完成。最基本的关系分类任务是判断文本中同时出现的两个实体( e 1 , e n e_{1},e_{n} e1,en)之间的关系。
2012年,Google对外发布了基于知识图谱(free base)的语义搜索和智能问答服务,并开放了该知识图谱供工业界和学术界使用。大规模知识图谱的出现极大地推动了智能问答研究的发展。基于此类知识图谱,斯坦福、Facebook 和微软等研究机构分别构建并开放了基于知识图谱的智能问答评测数据集,包括WebQuestions、SimpleQuestions、NLPCC-KBQA等,这些数据集涉及的问答任务需要问答系统能够针对输人问题进行准确的关系分类。由于知识图谱中包含的关系(即谓词)数目远超上述关系分类任务涉及的关系数目,因此近年来出现了很多新型的关系分类方法。主要包括模板匹配方法、监督学习方法和半监督学习方法。

2.2 方法

2.2.1 模板匹配方法

模板匹配方法是关系分类任务中最常见的方法。该类方法使用一个模板库对输入文本中两个给定实体进行上下文匹配,如果该上下文片段与模板库中某个模板匹配成功,那么可以将该匹配模板对应的关系作为这两个实体之间满足的关系。
两种常用的模板匹配方法: 第一种方法是基于人工模板完成关系分类任务,第二种方法是基于统计模板完成关系分类任务
基于人工模板的关系分类主要用于判断实体间是否存在上下位关系(Hyponymy).
基于人工模板的关系分类在给定关系列表的基础上,从大规模数据中自动抽取和总结模板,并将抽取出来的高质量模板用于关系分类任务。该过程无需过多人工干预

2.2.2 监督学习方法

监督学习(supervised learning)方法使用带有关系标注的数据训练分析分类模型。本节把该类方法分为三类进行介绍:基于特征的方法、基于核函数的方法和基于深度学习的方法

2.2.3 半监督学习方法

基于自举的方法和基于远监督的方法。

3.实体链指

原文地址:链接

3.1简介

实体链接,就是把文本中的mention链接到KG里的entity的任务。如下图所示[1]:
在这里插入图片描述

  • Knowledge Graph (知识图谱):一种语义网络,旨在描述客观世界的概念实体及其之间的关系,有时也称为Knowledge Base (知识库)。
  • 图谱由三元组构成:<实体1,关系,实体2> 或者 <实体,属性,属性值>;
    例如:<姚明,plays-in,NBA>、<姚明,身高,2.29m>;
    常见的KB有:Wikidata、DBpedia、YAGO。
  • Entity (实体):实体是知识图谱的基本单元,也是文本中承载信息的重要语言单位。
  • Mention (提及):自然文本中表达实体的语言片段。
    回过头再看,上面的这个图中,“乔丹”、“美国”、“NBA”这些蓝色的片段都是mention,其箭头所指的“块块”就是它们在图谱里对应的entity。

3.2 方法

  • End-to-End:先从文本中提取到实体mention (即NER),对应到候选实体,然后将提取到的entities消除歧义,映射到给定的KB中。
  • Linking-Only:与第一种方法对比,跳过了第一步。该方法直接将text和mention作为输入,找到候选实体并消除歧义,映射到给定的KB中。
    由于端到端的工作比较少,且NER也没太多可讲的。Linking-Only的相关技术方向和工作现在比较火。

3.3 难点以及对应的解决方法

EL的工作非常有挑战性,主要有两个原因:

  • Mention Variations:同一实体有不同的mention。(<科比>:小飞侠、黑曼巴、科铁、蜗壳、老科。)
  • Entity Ambiguity:同一mention对应不同的实体。(“苹果”:中关村苹果不错;山西苹果不错。)

针对上述两个问题,一般会用Candidate Entity Generation (CEG) 和Entity Disambiguation (ED) 两个模块[2]来分别解决:

  • Candidate Entity Generation:从mention出发,找到KB中所有可能的实体,组成候选实体集 (candidate entities);
  • Entity Disambiguation:从candidate entities中,选择最可能的实体作为预测实体。

其中,CEG的方法都比较朴素,没什么可讲的,笔者会把重点放在ED上。
详细请看原文

4. 关系抽取

原文地址:链接

4.1 简介

信息抽取旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。关系抽取是其中的重要子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系。比如:

International Business Machines Corporation (IBM or the company) was
incorporated in the State of New York on June 16, 1911.

我们可以从上面这段文本中抽取出如下三元组(triples)关系:

  • Founding-year (IBM, 1911)
  • Founding-location (IBM, New York)

为什么要进行关系抽取?
创建新的结构化知识库(knowledge base)并且增强现有知识库
构建垂直领域知识图谱:医疗,化工,农业,教育等
支持上层应用:问答,搜索,推理等。比如,对于这样一个提问:

The granddaughter of which actor starred in the movie “E.T.”?

可以用如下的关系推理表示:

(acted-in ?x "E.T.") && (is-a ?y actor) && (granddaughter-of ?x ?y)

4.2 方法

基于规则的模式匹配(Using Hand-built Patterns)
基于监督学习的方法(Supervised Method)
我们可以把关系抽取当成一个多分类问题,每一种关系都是一个类别,通过对标签数据的学习训练出一个分类器(classifier)即可。主要难点有两个:特征的构建和标签数据的获取
半监督和无监督学习方法(Semi-supervised && unsupervised)
基于种子的启发式算法(Seed-­based or bootstrapping approach)

远程监督学习(Distant Supervision)

5. 知识推理

原文地址:链接

5.1 简介

OWL本体语言是知识图谱中最规范(W3C制定)、最严谨(采用描述逻辑)。表达能力最强的语言(是一阶谓词逻辑的子集),它基于RDF语法,使表示出来的文档具有语义理解的结构基础。促进了统一词汇表的使用,定义了丰富的语义词汇。同时允许逻辑推理

所谓推理就是通过各种方法获取新的知识或者结论,这些知识和结论满足语义。其具体任务可分为可满足性(satisfiability)、分类(classification)、实例化(materialization)

可满足性可体现在本体上或概念上,在本体上即本体可满足性是检查一个本体是否可满足,即检查该本体是否有模型。如果本体不满足,说明存在不一致。概念可满足性即检查某一概念的可满足性,即检查是否具有模型,使得针对该概念的解释不是空集。
分类,针对Tbox的推理,计算新的概念包含关系
实例化即计算属于某个概念或关系的所有实例的集合

5.2 方法

基于Tableaux运算
基于一阶查询重写的方法
基于产生式规则的方法


http://chatgpt.dhexx.cn/article/4ypwl1Dg.shtml

相关文章

时空知识图谱应用初探

一、时空知识图谱概述 时空知识图谱不单单是一个“增强型”的开放域知识图谱&#xff0c;而是需要结合业务场景和领域知识&#xff0c;并针对时空知识自身的特点&#xff0c;对知识的概念、实体和关系进行语义化和时空化拓展。时空知识图谱除了描述语义关系外&#xff0c;还需要…

【知识图谱】知识图谱应用

知识图谱怎么用 知识图谱应用场景 辅助搜索——精准回答 eg&#xff1a; 辅助问答——人机互动 eg&#xff1a; 辅助数据集成——智能数据整合 eg&#xff1a; 辅助决策——智能决策 知识图谱和各种AI技术综合使用能更好地发挥AI的作用 eg&#xff1a;wbq为什么选择张…

知识图谱从入门到应用——知识图谱的知识表示:基础知识

分类目录&#xff1a;《知识图谱从入门到应用》总目录 相关文章&#xff1a; 知识图谱的知识表示&#xff1a;基础知识 知识图谱的知识表示&#xff1a;符号表示方法 知识图谱的知识表示&#xff1a;向量表示方法 知识表示是人工智能领域一个较为核心的问题。对于知识表示的…

知识图谱从入门到应用——知识图谱的技术结构

分类目录&#xff1a;《知识图谱从入门到应用》总目录 相关文章&#xff1a; 知识图谱的基础知识 知识图谱的发展 知识图谱的应用 知识图谱的技术结构 知识图谱是交叉技术领域 知识图谱是典型的交叉技术领域。在人工智能和机器学习领域&#xff0c;传统符号知识表示是知识…

知识图谱从入门到应用——知识图谱的发展

分类目录&#xff1a;《知识图谱从入门到应用》总目录 相关文章&#xff1a; 知识图谱的基础知识 知识图谱的发展 知识图谱的应用 知识图谱的技术结构 1945年&#xff0c;美国首任总统科学顾问Vannevar Bush曾提出了一个称为MEMEX的“记忆机器”的设想。他认为人的记忆偏重…

知识图谱从入门到应用——知识图谱的基础知识

分类目录&#xff1a;《知识图谱从入门到应用》总目录 相关文章&#xff1a; 知识图谱的基础知识 知识图谱的发展 知识图谱的应用 知识图谱的技术结构 知识图谱是有学识的人工智能 早期的人工智能有很多持不同观点的流派&#xff0c;其中两个历史比较悠久的流派通常被称为…

知识图谱的应用领域

1.3 知识图谱的价值 知识图谱最早的应用是提升搜索引擎的能力。随后&#xff0c;知识图谱在辅助智能问答、自然语言理解、大数据分析、推荐计算、物联网设备互联、可解释性人工智能等多个方面展现出丰富的应用价值。 1.辅助搜索 互联网的终极形态是万物的互联&#xff0c;而…

最详细的知识图谱的技术与应用

导读&#xff1a;从一开始的Google搜索&#xff0c;到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统&#xff0c;无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。 本文以通俗易懂的方式来讲解知识图谱相关的知识、尤其对从零开始搭建知识图…

知识图谱是什么?一文了解其技术与应用场景案例

导读&#xff1a;悟已往之不谏&#xff0c;知来者之可追。 小编整理了各种关于人工智能的学习资料库&#xff08;知识图谱、图像处理opencv\自然语言处理、机器学习、数学基础等&#xff09;&#xff0c;还有AI大礼包&#xff1a;Pytorch、实战框架视频、图像识别、OpenCV、计算…

言简意赅,盘点知识图谱在各领域的应用

言简意赅&#xff0c;盘点知识图谱在各领域的应用 01 语义匹配02 搜索推荐03 问答对话04 推理决策05 区块链协作 什么是知识图谱&#xff1f;通俗易懂 01 语义匹配 语义匹配是搜索推荐、智能问答和辅助决策的基础。在没有知识图谱以前&#xff0c;文本匹配主要依靠字面匹配为…

知识图谱有哪些应用领域?

知识图谱通常应用于自然语言处理和人工智能领域&#xff0c;常用于提高机器学习模型的准确性和效率。它还可以用于数据挖掘、信息检索、问答系统和语义搜索等领域。近年来知识图谱在电子商务、金融、公安、医疗等行业逐步开始落地&#xff0c;在这些行业的渗透、深入中&#xf…

云主机 环境搭配 交接文档

1.各个文件夹作用 2.pycharm 同步文件到服务器&#xff1a; 设置被上传服务器路径 3. 远程 操作服务器 首先安装远程链接软件 以上环境基本搭配完善

计算机使用交接记录表,交接文档_计算机软件及应用_IT计算机_专业资料

交接文档_计算机软件及应用_IT计算机_专业资料 (6页) 本资源提供全文预览&#xff0c;点击全文预览即可全文预览,如果喜欢文档就下载吧&#xff0c;查找使用更方便哦&#xff01; 9.9 积分 GainGainViewController(赚学饼)//获取赚学饼列表数据?(void)getData〃领取奖励?(vo…

交接文档怎么写_怎么写一篇实用的需求说明文档

应该很多人都遇到过这种场景吧&#xff1a;某天同事突然微信发来一句话&#xff1a;你写过产品需求文档吧&#xff0c;给我发一个模版。他们突然提出这种需求的时候&#xff0c;多半是在客户现场&#xff0c;出于客户要求&#xff0c;要完成一项叫做“写一个产品需求文档”的工…

如何快速离职?离职交接工作清单(前端)

前言 这是一篇前端离职项目交接清单(front-end handover checklist)。 仰天大笑出门去&#xff0c;我辈岂是蓬蒿人&#xff1f; 金三银四就要到了&#xff0c;大家一定跃跃欲试&#xff0c;甚至已经收获了很多offer。 即将入职公司&#xff1a;同学请问下周可以入职吗&#x…

开发交接文档_为开发人员创造更好的设计交接体验

开发交接文档 It’s 2020. We’re supposed to have flying cars and space travel. We should at least have our process for design handoff nailed down at this point. 现在是2020年。我们应该有飞行汽车和太空旅行。 在这一点上,我们至少应该确定我们的设计移交过程。 …

NvrSDK交接文档

这是使用md格式写成&#xff0c;为了方便阅读我就直接放到博客上了 一.工作内容 外面客户购买了我们的NVR产品&#xff0c;需要提供SDK包做二次开发解答客户对接SDK过程中遇到的问题解决SDK本身存在的bug根据新的需求增加接口 总结起来就是&#xff1a;提供SDK安装包、解答对…

某社区项目交接文档

某社区项目 本项目技术栈较为陈旧&#xff0c;使用framework7template7gulplessrequireJS。页面也存在很多迭代之后废弃的&#xff0c;故整理起来非常复杂&#xff0c;本文档将从几个方面试图对本项目进行梳理 为了使开发快速高效&#xff0c;使用了以下辅助工具&#xff1a;…

ds交接文档

环境 Qt Qt版本&#xff1a;Qt5.7.0以上&#xff0c;QT release下载地址http://download.qt.io/official_releases/qt/ Qt中文输入法软键盘需要重新编译qtvirtualkeyboard模块 qmake CONFIG"lang-en_GB lang-zh_CN"当前linux下部署版本是QT5.7.1&#xff0c;放在…

工作交接文档示例

工作交接 创建人 张三 联系方式 1234567890(QQ) 创建时间 2017/08/18 阅读人员 Java开发 公司简介 xx信息科技开发有限公司是一家…… 愿 景&#xff1a; 定 位&#xff1a; 使 命&#xff1a; 业务构成 公司主要产品有&#xff1a; 其中&#xff0c;几个主要用户对象…