文本挖掘系列之文本信息抽取

article/2025/10/5 7:29:00

文本数据挖掘的定义

文本数据挖掘是一种利用计算机处理技术从文本数据中抽取有价值的信息和知识的应用驱动型学科。文本数据挖掘处理的数据类型是文本数据,属于数据挖据的一个分支,与机器学习自然语言处理数理统计等学科具有紧密联系。文本挖掘在很多应用中都扮演重要角色,例如智能商务(例如客户关系管理)、信息检索(例如互联网搜索)等。
文本数据挖掘需要从三个层面进行理解。其一,底层技术,文本挖掘作为数据挖掘的一个分支学科,其底层技术包括机器学习、数理统计、自然语言处理等领域的的技术方法。其二,进阶技术,也即是文本挖掘的基本技术,面向不同的应用,分为五大类:信息抽取文本分类文本聚类文本数据压缩文本数据处理。其三,应用领域,文本挖掘最终的目的如其定义中所描述的,信息访问与知识发现,信息访问包括信息检索、信息浏览、信息过滤和信息报告,知识发现包括数据分析和数据预测。

文本数据挖掘的基本技术之文本信息抽取

文本信息抽取

文本信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。

技术介绍

下面我们从机器学习的角度介绍一下文本信息抽取这种的文本挖掘技术。我们将文本信息抽取视为一个标注问题,即将其作为一个监督学习的具体应用。文本信息抽取可以分为两个阶段:学习阶段和抽取阶段。其过程如下图所示:
图1
在学习阶段,首先有一些带标注的数据集,每一个样本包含文字单元序列和标注序列组成,如下所示,

(x1,1,x1,2,...,x1,ny1,1,y1,2,...,y1,n)

表示第i个样本,其中前面x部分表示第i个样本的文字单元序列,后面y部分表示第i个样本的标注序列。机器学子系统基于已有的标注构建一个学习模型,并用一个条件概率分布进行表示。信息抽取系统则是根据得到的条件概率分布模型,对新的样本进行标注,即找到一个标注序列最大化下面这个目标函数:
(ynew,1,ynew,2,...,ynew,n)=argminP(ynew,1,ynew,2,...,ynew,n|xnew,1,xnew,2,...,xnew,n)

文字单元在具体的实现中可以是一个文本、一个句子、一个词语,甚至还可以是中文的一个字,标注可能是表示信息抽取对象的开始、结束以及其他。抽取的信息将从开始到标注为结束的文字序列。例如,输入一段英文语句,要抽取这段语句的名词短语,则输入样本为英文句子,文字单元是单词,标注是名词短语的开始、结束或其他。

常用模型

文本信息抽取常用的模型有:隐马尔科夫模型、最大熵马尔科夫模型、条件随机场、表决感知机模型。这些模型是上述一般文本信息抽取的具体实现。
首先,将每一个标注看作是独立于序列以及序列的其它标注的,如下式所示,这样,对于每一个文字单元序列及其标注,可以得到这样一个条件概率分布:

P(ynew,1,ynew,2,...,ynew,n|xnew,1,xnew,2,...,xnew,n)=i=1nP(ynew,i|xnew,1,xnew,2,...,xnew,n)

由上式可以发现,这样的一个条件概率分布实际上是一个分类器模型,得到样本序列的各单元序列的最佳标注。
在上式的基础上,我们利用不同的模型作为分类器,可以得到不同的文本信息抽取方法。
例如,对于上面的式子,用最大熵模型作为分类器,并且我们假设不同的标注之间具有一阶马尔可夫性,即上式可以写为:
P(ynew,1,ynew,2,...,ynew,n|xnew,1,xnew,2,...,xnew,n)=i=1nP(ynew,i|ynew,i1,xnew,1,xnew,2,...,xnew,n)

每一个条件概率分布又是一个新的分类器模型,但是这个分类器是基于前一个标注确定的条件下的分类器,此时模型就成为最大熵马尔科夫模型。
需要注意的是,最大熵马尔科夫模型是一个局部模型,因为标注之间具有一阶马尔可夫性,用局部数据进行训练,而在抽取全局信息时,效果可能不会很好,会产生标注偏差问题。因此可以用一些复杂的全局模型来解决标注偏差问题。其中, 最常用的全局模型就是条件随机场。条件概率分布式中的各个标注会依赖除自身之外的其他标注,条件随机场可以精确的描述全局的标注情况,在精度上由于最大熵马尔科夫模型,但是训练时间也更多。
以上就是以词性标注问题来理解文本信息抽取的一些简单介绍,对于一些复杂信息的抽取问题,还可以将其看做句法分析问题来理解。


http://chatgpt.dhexx.cn/article/5HBH1n5w.shtml

相关文章

数据分析案例-文本挖掘与中文文本的统计分析

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

Python数据挖掘-NLTK文本分析+jieba中文文本挖掘

一、NLTK介绍及安装 (注:更多资源及软件请W信关注“学娱汇聚门”) 1.1 NLTK安装 NLTK的全称是natural language toolkit,是一套基于python的自然语言处理工具集。 nltk的安装十分便捷,只需要pip就可以。相对Python2…

文本挖掘详解

一、文本挖掘概念 在现实世界中,可获取的大部信息是以文本形式存储在文本数据库中的,由来自各种数据源的大量文档组成,如新闻文档、研究论文、书籍、数字图书馆、电子邮件和Web页面。由于电子形式的文本信息飞速增涨,文本挖掘已经…

什么是文本挖掘 ?

什么是文本挖掘   文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。1998年底,国家重点研究发展规划首批实施项目中明确指出,文本挖掘是“图像、语言、自然语言理解与知识…

文本数据分析:文本挖掘还是自然语言处理?

数据分析师Seth Grimes曾指出“80%的商业信息来自非结构化数据,主要是文本数据”,这一表述可能夸大了文本数据在商业数据中的占比,但是文本数据的蕴含的信息价值毋庸置疑。KDnuggets的编辑、机器学习研究者和数据科学家Matthew Mayo就在网站上…

Python数据挖掘-文本挖掘

文本挖掘概要 搞什么的? 从大量文本数据中,抽取出有价值的知识,并且利用这些知识更好的组织信息的过程。 目的是什么? 把文本信息转化为人们可利用的知识。 举例来说,下面的图表利用文本挖掘技术对库克iphoneX 发…

Python数据挖掘——文本分析

一、 一、定义: 文本挖掘:从大量文本数据中抽取出有价值的知识,并且利用这些知识重新组织信息的过程。 二、语料库(Corpus) 语料库是我们要分析的所有文档的集合。 import os import os.pathfilePaths [] #定义…

文本数据挖掘----数据预处理

一、数据预处理简介 1、为什么要进行数据预处理 一开始拿到的数据在数据的质量方面或多或少有一些问题,即在数据的准确性、完整性、一 致性、合时性(实时性)、可信性、解释性等方面可能存在问题,所以需要数据预处理来提高数据 …

文本数据挖掘----初识数据挖掘

一、数据挖掘的内容 1、关联规则挖掘 (1)关联规则挖掘工作内容 关联规则挖掘是指寻找给定数据集中项之间的有趣关联或相关联系(频繁出现的项集模式知 识);可以帮助许多决策的制定。 2、非监督式机器学习-聚类 &am…

文本数据挖掘(Text Mining)

文本数据挖掘是利用某些方法比如自然语言处理(Natural language processing (NLP))技术把一堆没有结构的数据而处理成有结构的数据的一种人工智能技术,而处理后的这些有结构的数据可以作为机器学习和深度学习模型的输入,也可以直接…

基于Python数据挖掘的文本数据的分类与分析

目录 数据获取 2数据预处理 2建立词典 4生成词向量 6贝叶斯分类器 7SVM 10逻辑回归 12实验总结与反思 14 实验一 文本数据的分类与分析 【实验目的】 1.掌握数据预处理的方法,对训练集数据进行预处理; 2.掌握文本建模的方法,对语料库的文档进…

使用VS2015编译JSBSim

1.说明 最近在研究JSBSim的代码,首先百度了一些JSBSim相关的文档和教程,有一篇《Building_JSBSim_with_Visual_Cpp_2010》讲了如何利用VS2010编译JSBSim,参考这个教程编译完成了一个JSBSim工程。但是这个工程是好多年以前的了,在…

C++学习 | VS2015下配置FFTW3库的方法,亲测实用

笔者是C的初学者,也是VS2015的初学者,最近的编程内容涉及到了傅里叶变换,于是查阅了很多资料,得知有FFTW这个十分强大的库,下面从下载到安装详细介绍。 一、FFTW简介 FFTW ( the Faster Fourier Transform in the W…

vs2015环境配置android,Visual Studio 2015环境搭建教程

当微软发布了Visual Studio 2015 Preview支持了wp,ios,android三大系统手机开发,相信也有不少朋友想迫不及待的使用这款Visual Studio 2015,下面小编就为大家介绍一下。 Visual Studio 2015环境搭建教程 1、安装之前先要看看自己的…

OpenCV+VS2015的详细配置(小白教程)

OpenCVVS2015的详细配置(小白教程) 一:下载安装OpenCV和VS2015配置环境变量VS2015中配置OpenCV 一:下载安装OpenCV和VS2015 1.下载OpenCV 进入OpenCV官网,下载自己想要版本。这里注意:OpenCV3.0是一个分界…

vs2015中用python编写程序

转载请注明出处:https://mp.csdn.net/postedit/81508867 python功能强大,但是没有专门的编写器,为了避免安装过多软件。在vs2015上配置使用,vs2015安装时直接选中python插件。本文配置中所用电脑型号是win7|64位,参考文…

VS2015镜像安装教程

为了更好地支持 Win10 程序的开发,微软发布了 VS2015。VS2015 支持开发人员编写跨平台的应用程序,从 Windows 到 Mac、Linux、甚至是编写 iOS 和 Android 代码! VS2015 共有三个版本,分别是: 社区版(Commu…

VS2015编译使用Boost库遇到的问题及正确编译使用教程

目录 背景: 一、VS2015Boost1.79.0时出现的问题情况 1、前言 2、问题发现 3、排查找原因 二、VS2015Boost1.69.0正确编译使用 1、执行bat文件 2、运行exe文件,编译lib库 3、VS2015包含库使用 背景: 本机电脑window10上已经安装过VS2…

VS2015 tfs的使用教程

本人文章陆续转向本人微信公账号发布 公众号:搬砖码农SmallNNN,期望您要是搬砖码农,一起学习探讨。 由于最新新换了工作环境,点击打开链接,看了这个文章的人大家都知道, 上家用的是git,这个有的教程了&am…

vs2015使用教程

一、启动 visual studio 2015 稍等片刻,你就会看到这个界面: 点击菜单:”文件”-“新建”-“项目”,会出现这个窗口: 选择左侧的”Visual C”下面的“win32”之后,选择右侧的”win32控制台应用程序”&#…