知识图谱从入门到应用——知识图谱的基础知识

article/2025/1/15 14:50:51

分类目录:《知识图谱从入门到应用》总目录
相关文章:
· 知识图谱的基础知识
· 知识图谱的发展
· 知识图谱的应用
· 知识图谱的技术结构


知识图谱是有学识的人工智能

早期的人工智能有很多持不同观点的流派,其中两个历史比较悠久的流派通常被称为连接主义符号主义。连接主义主张智能的实现应该模拟人脑的生理结构,即用计算机模拟人脑的神经网络连接。
人工智能的三个流派

这个流派发展至今,即所谓广泛发展的深度神经网络。另外一个流派称为符号主义,主张智能的实现应该模拟人类的心智,即用计算机符号记录人脑的记忆,表示人脑中的知识,即所谓知识工程与专家系统等。深度学习首先在视觉、听觉等感知任务中获得成功,本质上解决的是模式识别的问题,可以比喻为实现的是一种聪明的AI。

DIKW体系
但感知还是低级的智能,人的大脑依赖所学的知识进行思考、推理和理解语言等。因此,还有另外一种AI可以称为是有学识、有知识的AI。这和知识图谱有密切关系,
连接主义**和**符号主义描述
什么叫认知智能?认知智能有两个核心的研究命题,一个是语言理解,另外一个是知识的表示与处理。人类通过认识世界来积累关于世界的知识,通过学习到的知识来解决碰到的问题。比如,一位医生利用他的医学知识给病人看病。而语言则是知识最直接的载体,到目前为止,人类的绝大部分知识都是通过自然语言来描述、记录和传承的。与此同时,正确理解语言又需要知识的帮助。如下图所示,这里举一个有趣的例子:“G20上午开会休息,马云对他的秘书说:‘中午帮我买肯德基。’30分钟后,秘书回来说:‘买好了,一共4.6亿美元,咱是支付宝还是现金?’”。这当然只是个玩笑,当时的新闻是春华资本及蚂蚁金服共同向肯德基的母公司百胜餐饮投资了4.6亿美元。这里关注的是背景知识对于正确理解语言的重要性。假如马云的秘书是一个人工智能,它在第一个语境中,应该把肯德基识别为一种食品,而在第二个语境中,应该把肯德基识别为一家公司,而且它还需要知道肯德基的母公司是百胜餐饮,蚂蚁金服投资了百胜餐饮,而马云是阿里巴巴的创始人,阿里巴巴与蚂蚁金服存在关联关系,才能正确地建立马云和肯德基的关系。这个背后的事物关系网络其实就是知识图谱。事实上,每个人的大脑里面都有大量这种类型的关于万事万物之间关联关系的知识图谱,我们极大地依赖这些背景知识来准确理解语言并正确地做出判断。
肯德基的知识图谱

以深度学习为代表的连接学派,主要解决了感知问题,也引领了这一轮人工智能的发展热潮。但是在更高层次的认知领域,例如自然语言理解、推理和联想等方面,还需要符号学派的帮助。知识图谱是符号学派的代表,可以帮助我们构建更有学识的人工智能,从而提升机器人推理、理解、联想等功能。而这一点,仅通过大数据和深度学习是无法做到的。多伦多大学的Geoffrey Hinton教授也提出,人工智能未来的发展方向之一就是深度神经网络与符号人工智能的深入结合。

知识的承载与表示方式

人类的自然语言,以及创作的绘画和音乐、数学语言、物理模型和化学公式等都是人类知识的表示形式和传承方式。具有获取、表示和处理知识的能力是人类心智区别于其他物种心智的最本质特征之一。传统的人工智能领域有一个经典的研究方向——知识工程和专家系统。这种经常被称为是GOFAI(Good Old Fashioned AI)的基本思想是建立一个系统,能够从专家大脑里获取知识,再通过一个推理引擎为非专家用户提供服务,如辅助诊断、判案等。而这个从人脑获取知识的过程就叫作知识工程。知识有很多种表达载体和存在形式,例如自然语言是人类知识最主要的表达载体。既然人脑能够通过阅读从文本获取和学习知识,机器脑也应该具备从文本中抽取知识的能力。但文本字符串似乎对机器不太友好,机器在理解人类语言方面仍然步履维艰。比如类似于微软小冰、苹果Siri、小米小爱音箱等产品在人机对话方面的体验仍然面临巨大的挑战。

当前,通过机器来理解文本中的知识有两大主要的技术路线。第一种是抽取技术,例如从文本中识别实体、关系和逻辑结构等;第二种是语言预训练,即通过大量的文本语料训练一个神经网络大模型,文本中的知识被隐含在参数化的向量模型中,而向量化的表示和神经网络是对机器友好的。所以,文本本身也可以作为一种知识库(Knowledge Base)。

知识图谱的本质是一种结构化的知识表示形式。简单地说,知识图谱旨在利用图结构建模、识别和推断事物之间的复杂关联关系和沉淀领域知识,已经被广泛地应用于语义搜索、智能问答、语言理解、媒体理解、推理引擎和决策引擎等众多领域,如下图所示。相比文本而言,结构化数据更易于被机器处理,比如查询和问答。同时图结构比起字符串序列能够表达更加丰富的语义和知识。
知识引擎
对于机器而言,图结构比文本当然更加友好。深度学习或者更为准确地说是表示学习的兴起,表明参数化的向量和神经网络是更适合机器完成快速计算的信息载体。比如,在自然语言中,可以为每个词学习一个向量表示;在图像处理中,也可以为视觉场景中的每一个对象学习一个向量表示;在知识图谱中,可以为每一个实体和关系学习一个向量表示。我们通常把这些向量化表示称为Embedding或Distributed Vector Representation。如下图所示,如果将所有数字对象的向量表示投影到向量空间,我们会发现,同一个数字对象的不同图像的向量在空间距离更近。进一步地,通过将词语、实体、对象和关系等都投影到向量空间,就可以更加方便地在向量空间对这些语言、视觉和实体对象进行操作,甚至可以利用神经网络实现逻辑推理。
实体表示成向量

知识图谱是一种世界模型知识

图谱本质上可以看作一种世界模型——World Model。纵观人工智能相关方向的发展历史,一直有一个核心的命题是寻找合适的万物机器表示,用于记录有关世界的知识。在传统的专家系统时代,人们发明了描述逻辑等符号化的知识表示方法来描述万物。人类的自然语言也是符号化的描述客观世界的表示方法。到了互联网时代,人们又设想用本体和语义链接有关互联网上发布的各种数据和知识,这也是知识图谱的起源之一。
知识图谱的演进
随着表示学习和神经网络的兴起,人们发现数值化的向量表示更易于捕获那些隐藏的、不易于明确表示的知识,并且比符号表示更易于机器处理。知识图谱同时拥抱机器的符号表示和向量表示,并能将两者有机地结合起来,解决搜索、问答、推理和分析等多方面的问题。结合知识图谱、神经网络等新的人工智能技术手段,可以对专家系统进行重构。原有的知识库可以采用知识图谱的方式,让知识获取的手段更容易。除了传统的符号表示,也要考虑如何用向量表示实体、关系等知识。在知识获取方面,专家层面的经验为现代知识的构建提供了重要的输入,此外,现在还有设备传感数据、自动采集的日志数据、多种模态的数据等大量的机器数据。知识图谱在一定程度上可以起到桥梁的作用,将专家经验性的知识与机器数据通过比较有效的表示结合起来。

知识图谱
在推理引擎方面,传统的符号推理引擎有很多,由于有诸多瓶颈,例如对知识质量要求非常高,均未能实现大规模商业化应用。而现在的推理引擎可以在神经网络、表示学习等深度学习技术加持下实现更好的推理。在面向用户的交互方面,不再仅仅是简单查询,还可以实现搜索、智能问答和基于图分析的决策分析。并通过一些可视化的手段支撑对所有数据在各个维度的整体性分析,同时对所有推断结果提供可解释性。

知识图谱的定义

从上文也可以看到,知识图谱的概念是和Web、自然语言处理(NLP)、知识表示(KR)、人工智能(AI)、数据库(DB)等密切相关的。所以我们可以从以下几个角度去了解知识图谱。

  • 从Web的角度来看,像建立文本之间的超链接一样,构建知识图谱需要建立数据之间的语义链接,并支持语义搜索,这样就改变了以前的信息检索方式,可以以更适合人类理解的语言来进行检索,并以图形化的形式呈现。
  • 从自然语言处理(NLP)的角度来看,构建知识图谱需要了解如何从非结构化的文本中抽取语义和结构化数据。
  • 从知识表示(KR)的角度来看,构建知识图谱需要了解如何利用计算机符号来表示和处理知识。
  • 从人工智能(AI)的角度来看,构建知识图谱需要了解如何利用知识库来辅助理解人类语言,包括机器翻译问题的解决。
  • 从数据库(DB)的角度来看,构建知识图谱需要了解使用何种方式来存储知识。由此看来,知识图谱技术是一个系统工程,需要综合利用各方面技术。

综上所述,我们可以总结出:

  • 知识图谱,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体–关系–实体”三元组,以及实体及其相关属性–值对,实体之间通过关系相互联结,构成网状的知识结构。
  • 知识图谱以结构化的方式描述客观世界中概念、实体及其关系,将互联网的信息表示成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。
  • 知识图谱旨在建模、识别、发现和推断事物、概念之间的复杂关系,是事物关系的可计算模型,已经被广泛应用于搜索引擎、智能问答、语言理解、视觉场景理解、决策分析等领域。
  • 知识图谱本质上是一种叫作语义网络的知识库,即一个具有有向图结构的知识库,其中图的结点代表实体或者概念,而图的边代表实体/概念之间的各种语义关系。

知识图谱里“实体–关系–实体”三元组我们可以这么理解:

  • 实体:对应一个语义本体,例如“姚明”、“中国”等。
  • 属性:描述一类实体的特性(例如“身高”:姚明的身高是229厘米)。
  • 关系:对应语义本体之间的关系,将实体连接起来(例如“国籍”:姚明的国籍是中国)。

有些文章也将属性定义为关系,属于属性关系的一种。

知识图谱的模式

由概念组成的体系称为本体,本体的表达能力比模式强,且包含各种规则,而模式这个词汇则来源于数据库领域,可视为一个轻量级的本体。实体和概念之间通常是“是”的关系,也就是“isA”关系,比如“中国是一个国家”。而概念和概念之间通常是子集关系,如“subClassOf”,比如“篮球运动员是人的一个子集”,“国家是地点的一个子集”,一个简单的由本体所描述的模式如下图所示:
知识图谱的模式

参考文献:
[1] 陈华钧.知识图谱导论[M].电子工业出版社, 2021
[2] 邵浩, 张凯, 李方圆, 张云柯, 戴锡强. 从零构建知识图谱[M].机械工业出版社, 2021


http://chatgpt.dhexx.cn/article/UrGpXOGc.shtml

相关文章

知识图谱的应用领域

1.3 知识图谱的价值 知识图谱最早的应用是提升搜索引擎的能力。随后,知识图谱在辅助智能问答、自然语言理解、大数据分析、推荐计算、物联网设备互联、可解释性人工智能等多个方面展现出丰富的应用价值。 1.辅助搜索 互联网的终极形态是万物的互联,而…

最详细的知识图谱的技术与应用

导读:从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。 本文以通俗易懂的方式来讲解知识图谱相关的知识、尤其对从零开始搭建知识图…

知识图谱是什么?一文了解其技术与应用场景案例

导读:悟已往之不谏,知来者之可追。 小编整理了各种关于人工智能的学习资料库(知识图谱、图像处理opencv\自然语言处理、机器学习、数学基础等),还有AI大礼包:Pytorch、实战框架视频、图像识别、OpenCV、计算…

言简意赅,盘点知识图谱在各领域的应用

言简意赅,盘点知识图谱在各领域的应用 01 语义匹配02 搜索推荐03 问答对话04 推理决策05 区块链协作 什么是知识图谱?通俗易懂 01 语义匹配 语义匹配是搜索推荐、智能问答和辅助决策的基础。在没有知识图谱以前,文本匹配主要依靠字面匹配为…

知识图谱有哪些应用领域?

知识图谱通常应用于自然语言处理和人工智能领域,常用于提高机器学习模型的准确性和效率。它还可以用于数据挖掘、信息检索、问答系统和语义搜索等领域。近年来知识图谱在电子商务、金融、公安、医疗等行业逐步开始落地,在这些行业的渗透、深入中&#xf…

云主机 环境搭配 交接文档

1.各个文件夹作用 2.pycharm 同步文件到服务器: 设置被上传服务器路径 3. 远程 操作服务器 首先安装远程链接软件 以上环境基本搭配完善

计算机使用交接记录表,交接文档_计算机软件及应用_IT计算机_专业资料

交接文档_计算机软件及应用_IT计算机_专业资料 (6页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 9.9 积分 GainGainViewController(赚学饼)//获取赚学饼列表数据?(void)getData〃领取奖励?(vo…

交接文档怎么写_怎么写一篇实用的需求说明文档

应该很多人都遇到过这种场景吧:某天同事突然微信发来一句话:你写过产品需求文档吧,给我发一个模版。他们突然提出这种需求的时候,多半是在客户现场,出于客户要求,要完成一项叫做“写一个产品需求文档”的工…

如何快速离职?离职交接工作清单(前端)

前言 这是一篇前端离职项目交接清单(front-end handover checklist)。 仰天大笑出门去,我辈岂是蓬蒿人? 金三银四就要到了,大家一定跃跃欲试,甚至已经收获了很多offer。 即将入职公司:同学请问下周可以入职吗&#x…

开发交接文档_为开发人员创造更好的设计交接体验

开发交接文档 It’s 2020. We’re supposed to have flying cars and space travel. We should at least have our process for design handoff nailed down at this point. 现在是2020年。我们应该有飞行汽车和太空旅行。 在这一点上,我们至少应该确定我们的设计移交过程。 …

NvrSDK交接文档

这是使用md格式写成,为了方便阅读我就直接放到博客上了 一.工作内容 外面客户购买了我们的NVR产品,需要提供SDK包做二次开发解答客户对接SDK过程中遇到的问题解决SDK本身存在的bug根据新的需求增加接口 总结起来就是:提供SDK安装包、解答对…

某社区项目交接文档

某社区项目 本项目技术栈较为陈旧,使用framework7template7gulplessrequireJS。页面也存在很多迭代之后废弃的,故整理起来非常复杂,本文档将从几个方面试图对本项目进行梳理 为了使开发快速高效,使用了以下辅助工具:…

ds交接文档

环境 Qt Qt版本:Qt5.7.0以上,QT release下载地址http://download.qt.io/official_releases/qt/ Qt中文输入法软键盘需要重新编译qtvirtualkeyboard模块 qmake CONFIG"lang-en_GB lang-zh_CN"当前linux下部署版本是QT5.7.1,放在…

工作交接文档示例

工作交接 创建人 张三 联系方式 1234567890(QQ) 创建时间 2017/08/18 阅读人员 Java开发 公司简介 xx信息科技开发有限公司是一家…… 愿 景: 定 位: 使 命: 业务构成 公司主要产品有: 其中,几个主要用户对象…

交接文档整理

一、开发 无 TD 文档,先进行协商,避免出现口头需求、全部由开发背锅情况。优先处理 bug,半天内可以搞定就做,否则不予处理。情形:查询前需要先进行 insert。MD5。工作流中间过程业务处理,根据流程编号重新…

【交接文档】如何写好工作交接文档

反驳不需要写文档的言论 有很多工程师都持有一个观点:“不用看(写)文档,文档都在代码里”,还有一部分人认为,文档容易过时,很难跟上代码的更新节奏,因而没有必要写文档。 接手业务的时候吐槽别人不写文档&a…

动态域名解析概述及操作步骤讲解

随着IPv4公网资源的紧缺,以及越来越多的互联网服务发展,许多用户都采取了动态域名解析的方法来解决内网穿透和服务器搭建问题。那么动态域名解析是什么?怎么操作呢?本文将详细介绍。 动态域名解析概述 现在广大的互联网&#xf…

最全DNS域名解析流程及域名注册(细节!)

DNS详解 DNS解析流程详解 图 1 DNS解析流程图 ​ 1.客户机上的用户在应用程序(如web浏览器)中输入网址。应用程序首先检查其浏览器缓存,如果缓存中有,则这个域名解析过程就结束。如果浏览器缓存中没有,浏览器会查找本地的hosts文件是否有这个映射关系,如果有,就先调用这个…

域名解析的过程和具体步骤

1. 域名解析就是国际域名或者国内域名以及中文域名等域名申请后做的到 IP 地址的转换过程。 . <?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" /> 1 &#xff1a;例如客户机向本地服务器发请求&#xff0c;要求解 www.baidu.com 的…

DNS解析域名流程

DNS解析流程说明 DNG解析流程实际上就是从用户在客户端浏览器输入网站地址并按回车键开始的 , 一直持续到获取域名对应的IP , 整个过程分为如下几个步骤: 1.客户端用户在浏览器里输入so.csdn.net网站地址后回车 , 系统首先会查找系统本地的DNS缓存及hosts文件信息 , 确定是否…