文本数据挖掘----初识数据挖掘

article/2025/10/5 7:56:03

一、数据挖掘的内容

1、关联规则挖掘

(1)关联规则挖掘工作内容

        关联规则挖掘是指寻找给定数据集中项之间的有趣关联或相关联系(频繁出现的项集模式知

识);可以帮助许多决策的制定。

2、非监督式机器学习-聚类

(1)处理数据的类型

        处理的是没有事先标记分类的数据

(2)常见的五种聚类算法

        ①K-means

        ②Hierarchical

        ③GMM

        ④DBSCAN(基于密度的聚类算法);

        ⑤基于网格Grid的聚类算法;

3、监督式机器学习

(1)监督式机器学习解释

        可以由训练资料中学到或建立一个模式函数 / learning model),并依此模式推测新的实

例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值

(称为回归分析),或是预测一个分类标签(称作分类)。

(2)监督式机器学习工作内容

        ①离散标签预测——标签分类;

        ②连续标签预测­——数值预测;

4、回归

(1)回归解释

        回归是指一种用于预测任何连续值属性的监督机器学习技术。回归有助于任何业务组织分析

目标变量和预测变量的关系。

二、认识数据

1、数据类型和统计

(1)数据对象

        一个数据对象代表一个实体,而一个或多个数据对象组成一个或多个数据集;

(2)属性的类型

        ①标称类型的数据(状态可列举的数据),例如:类别、状态,特殊情况:二进制类型数据

(通常只有两个状态的数据),二进制类型数据又分为对称二进制类型数据(数据的两个状态数量

规模相当)和不对称二进制类型数据(这两个状态数据规模差距很大);

        ②序数类型数据:通常有一个有意义的顺序;

        ③区间标注属性:通常没有零点,所以它的倍数没有意义;

        ④比率标度属性:具有固定零点的数值属性,有序且可以计算倍数,例:长度、重量等;

2、数据统计汇总

(1)中性化趋势度量

        均值、中位数和众数;

(2)分布趋势度量 

        

三、数据可视化 

1、箱线图分析

(1)箱线图功能

      箱线图能够分析多个属性数据的分布差异性。

(2)箱线图例

 2、直方图分析

(1)直方图的功能

        用来分析单个属性在各个区间的变化分布。

(2)直方图例

        

3、散点图分析

(1)散点图的功能

         用来显示两组数据的相关性分析(正相关和负相关以及不相关)。

(2)散点图例

 

四、数据相似性

1、度量数据的相似性和相异性

(1)数据矩阵

        N个数据,p个维度;

(2)相异矩阵

        N个数据点,记录两点之间的距离,是三角矩阵;

(3)度量数据的三个特性描述

        

2、标称属性的邻近性度量 

(1)标称属性描述

        标称属性可以取两个或者多个状态;

        方法:简单匹配; 

(2)邻近性度量的计算方法

        d(I,j) = (p-m) / p ; 其中m是匹配次数,p是属性总数;

        例:

                 ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        

 3、二值属性的邻近性度量

        (1)这里的q表示两个人的测试(即后面六项)都是阳性(用Y或者P表示的)的有多少个;

        (2)这里的r就是表示其中JackYP,而MarryN的有多少;

        (3)这里的s表示JackN,而MarryY或者P的有多少;

        (4)t表示两个都是N的有多少个;

4、几个重要的距离描述

(1)闵可夫斯基距离

 (2)曼哈顿距离

        

 (3)欧氏距离

        

        

(4) 上确界距离

        

         

 

 


http://chatgpt.dhexx.cn/article/8g5vsPTY.shtml

相关文章

文本数据挖掘(Text Mining)

文本数据挖掘是利用某些方法比如自然语言处理(Natural language processing (NLP))技术把一堆没有结构的数据而处理成有结构的数据的一种人工智能技术,而处理后的这些有结构的数据可以作为机器学习和深度学习模型的输入,也可以直接…

基于Python数据挖掘的文本数据的分类与分析

目录 数据获取 2数据预处理 2建立词典 4生成词向量 6贝叶斯分类器 7SVM 10逻辑回归 12实验总结与反思 14 实验一 文本数据的分类与分析 【实验目的】 1.掌握数据预处理的方法,对训练集数据进行预处理; 2.掌握文本建模的方法,对语料库的文档进…

使用VS2015编译JSBSim

1.说明 最近在研究JSBSim的代码,首先百度了一些JSBSim相关的文档和教程,有一篇《Building_JSBSim_with_Visual_Cpp_2010》讲了如何利用VS2010编译JSBSim,参考这个教程编译完成了一个JSBSim工程。但是这个工程是好多年以前的了,在…

C++学习 | VS2015下配置FFTW3库的方法,亲测实用

笔者是C的初学者,也是VS2015的初学者,最近的编程内容涉及到了傅里叶变换,于是查阅了很多资料,得知有FFTW这个十分强大的库,下面从下载到安装详细介绍。 一、FFTW简介 FFTW ( the Faster Fourier Transform in the W…

vs2015环境配置android,Visual Studio 2015环境搭建教程

当微软发布了Visual Studio 2015 Preview支持了wp,ios,android三大系统手机开发,相信也有不少朋友想迫不及待的使用这款Visual Studio 2015,下面小编就为大家介绍一下。 Visual Studio 2015环境搭建教程 1、安装之前先要看看自己的…

OpenCV+VS2015的详细配置(小白教程)

OpenCVVS2015的详细配置(小白教程) 一:下载安装OpenCV和VS2015配置环境变量VS2015中配置OpenCV 一:下载安装OpenCV和VS2015 1.下载OpenCV 进入OpenCV官网,下载自己想要版本。这里注意:OpenCV3.0是一个分界…

vs2015中用python编写程序

转载请注明出处:https://mp.csdn.net/postedit/81508867 python功能强大,但是没有专门的编写器,为了避免安装过多软件。在vs2015上配置使用,vs2015安装时直接选中python插件。本文配置中所用电脑型号是win7|64位,参考文…

VS2015镜像安装教程

为了更好地支持 Win10 程序的开发,微软发布了 VS2015。VS2015 支持开发人员编写跨平台的应用程序,从 Windows 到 Mac、Linux、甚至是编写 iOS 和 Android 代码! VS2015 共有三个版本,分别是: 社区版(Commu…

VS2015编译使用Boost库遇到的问题及正确编译使用教程

目录 背景: 一、VS2015Boost1.79.0时出现的问题情况 1、前言 2、问题发现 3、排查找原因 二、VS2015Boost1.69.0正确编译使用 1、执行bat文件 2、运行exe文件,编译lib库 3、VS2015包含库使用 背景: 本机电脑window10上已经安装过VS2…

VS2015 tfs的使用教程

本人文章陆续转向本人微信公账号发布 公众号:搬砖码农SmallNNN,期望您要是搬砖码农,一起学习探讨。 由于最新新换了工作环境,点击打开链接,看了这个文章的人大家都知道, 上家用的是git,这个有的教程了&am…

vs2015使用教程

一、启动 visual studio 2015 稍等片刻,你就会看到这个界面: 点击菜单:”文件”-“新建”-“项目”,会出现这个窗口: 选择左侧的”Visual C”下面的“win32”之后,选择右侧的”win32控制台应用程序”&#…

【VSCode常用插件】Path Autocomplete(@路径提示的插件)

前言❤️ 在路上,见识世界;在途中,认清自己 ❤️ 【VSCode常用插件】Path Autocomplete(路径提示的插件) 一、安装教程二、设置教程(1)在vscode设置打开 settings.json(2&#xff09…

vscode最常用插件

常用插件: 如果喜欢中文就安装中文,如果不喜欢就自动忽略. 1、chinese 2、Open-In-Browser 这个是必须安装的 打开浏览器看效果使用的 快捷键是altb 3、Prettier Prettier 是目前 Web 开发中最受欢迎的代码格式化程序。安装了这个插件,它…

vscode常用插件 - Path Autocomplete

1. Path Autocomplete 作用: 在vscode中使用提示路劲配置 打开vscode设置 搜索 settings.json 添加以下代码 // 导入文件时是否携带文件的拓展名"path-autocomplete.extensionOnImport": true,// 配置的路径提示"path-autocomplete.pathMappings": {"…

VSCode 常用插件推荐

VS Code提供了非常丰富的插件功能,根据你的需要,安装对应的插件可以大大提高开发效率。 完成前端开发,常见插件介绍: 目录 1、Chinese (Simplified) Language Pack 2、Code Spell Checker 3、HTML CSS Support 4、JavaScrip…

前端VSCode常用插件安装和使用

本篇文章先介绍下常见的插件~~~~ VSCode常用的插件 vscode之所以被称为宇宙第一神器,其中丰富的插件功不可没,安装起来超级简单,给我们开发带来了极大的便捷。 注意,新手学习期间,不建议安装形形色色的插件&#xff…

VSCode常用插件和快捷键总结

码字不易,转载请附原链,搬砖繁忙回复不及时见谅。 快捷键 切换打开的项目窗口:Ctrl W打开最近的项目:Ctrl R切换打开的文件:Ctrl 数字键 / Ctrl tab左右切换打开的文件:Command alt 左/右format格式…

VSCode 工具常用插件

1、Debugger for Chrome 方便运行代码,浏览器打开 2、 GitLens — Git supercharged 鼠标放到代码行上可以显示,改行的上一次修改记录 3、Git History git log 4、 Auto Close Tag 自动完成闭合标签 5、 Auto Rename Tag 修改了前面的开始标签&#…

Vscode常用插件及设置(前端版,实时更新ing

1.open in borwser: 写完代码后鼠标右击将代码在浏览器中运行 2.Chinese 汉化Vscode 3.vscode-icons html、css、js、less图标显示 4.Live Server 代码块写完后使用Live Server,每次修改代码CtrlS后浏览器无需再刷新即可跟着变化, 与…

VSCode常用插件汇总

这篇博客主要是我使用vscode过程中的插件汇总,使用了这么长时间,总想有个总结,也方便日后查看,这里我将我使用的插件分为基础、框架、工具三个类型。 官网地址 VSCode插件官网地址,里面有很多的插件可以使用。 基础插…