数据分析——数据预处理

article/2025/11/10 5:08:48

内容来源:课程《智能信息处理技术》、周志华《机器学习》

数据预处理

点击 数据预处理各步骤梳理 查看全图
数据清洗部分截图

什么是数据预处理

现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。

数据预处理的意义

数据预处理技术可以改进数据的质量,有助于提高其后的决策过程的精度和性能。高质量的决策必然依赖于高质量的数据,数据预处理是知识发现过程的重要步骤。检测异常数据、尽早地调整数据并归约待分析的数据,将在决策过程中得到高回报。

主要的内容

◼ 数据清理
填写空缺,平化噪声,识别、删除孤立点,消除不一致性
◼ 数据集成
集成多个数据库、数据立方体或文件
◼ 数据变换
规范化和聚集
◼ 数据归约
数据集的压缩表示,小得多,但可得到相同或近似的结果
◼ 数据离散化
通过概念分层和数据离散化来规约数据

什么是数据挖掘

数据挖掘(Data Mining)就是从大量的数据中,提取隐藏在其中的,事先不知道的、但潜在有用的信息的过程。数据挖掘的目标是建立一个决策模型,根据过去的行动数据来预测未来的行为。

种类及其应用

数据挖掘任务分为下面两大类。

  • 预测任务。这些任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性一 般称目标变量(target variable)因变量(dependen tvariable), 而用来做预测的属性称说明变量(explanatory variable)自变量(independent variable)。

    分类(classification),用于预测离散的目标变量;回归(regression),用于预测连续的目标变量。例如,预测一个Web用户是否会在网上书店买书是分类任务,因为该目标变量是二值的,而预测某股票的未来价格则是回归任务,因为价格具有连续值属性。两项任务目标都是训练一个模型,使目标变量预测值与实际值之间的误差达到最小。预测建模可以用来确定顾客对产品促销活动的反应,预测地球生态系统的扰动,或根据检查结果判断病人是否患有某种疾病。

  • 描述任务。其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证解释结果

    关联分析(association analysis) 用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有趣的模式。关联分析的应用包括找出具有相关功能的基因组、识别用户一起访问的Web页面、 理解地球气候系统不同元素之间的联系等。

    聚类分析(cluster analysis) 旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比, 属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关的顾客分组、找出显著影响 地球气候的海洋区域以及压缩数据等。

    异常检测(anomaly detection) 的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点(anomaly)离群点(outlier)。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点换言之,一个好的异常检测器必须具有高检测率和低误报率。异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式、生态系统扰动等。


http://chatgpt.dhexx.cn/article/ILP97MV9.shtml

相关文章

数据挖掘—数据预处理

文章目录 数据预处理1 数据清洗缺失值处理异常值处理 2 数据集成实体识别冗余属性识别数据变换简单函数变换规范化连续属性离散化 属性构造 3 数据规约属性归约数值归约 Python主要数据预处理函数 数据预处理 数据预处理的过程 数据预处理的目的: 1)提…

python数据预处理

Ⅰ.数据源 Ⅱ.导入库 import pandas as pd import numpy as np from scipy import stats import matplotlib.pyplot as plt import seaborn as sns from sklearn.preprocessing import MinMaxScaler, StandardScaler# 避免画图时无法显示中文(中文部分以正方格显示…

python数据预处理_Python数据预处理

1.缺失值处理 1.1缺失值查看 在Python中直接调用info()方法就会返回每一列的缺失情况。 Python中缺失值一般用NaN表示,从用info()方法的结果来看,地区、销量跟销售额这三列是12个非null值,其他的都是13个非null值,说明这三列分别有…

机器学习——数据的预处理(总结大全)

目录 数据清洗 1、重复观测处理 ​2、缺失值处理 删除法 替换法 插补法 3、异常值处理 删减特征 1. 去除唯一属性 数据查看 特征缩放 一、为什么要特征数据缩放? 二、特征缩放常用的方法 1、归一化(Normalization) 2、标准化(Standardization) 相同点及…

js中鼠标事件mouseover、mouseenter和mouseleave、mouseout的区别

mouseover:当鼠标移入元素或其子元素都会触发事件,所以有一个重复触发,冒泡过程。对应的移除事件是mouseout mouseenter:当鼠标移除元素本身(不包含元素的子元素)会触发事件,也就是不会冒泡,对应…

mouseover和mouseenter的异同

引言 在自己动手练习一些项目实例的时候,发现mouseover和mouseenter这俩事件功能有点相似,但应用场景却不同。 所以想整篇博客梳理梳理 mouseover和mouseenter的不同点: 不同点有两方面: 事件的触发时机是否支持冒泡 一、事件…

JS——mouseover和mouseenter的区别

区别举例补充 区别 mouseover:鼠标移入事件所绑定的元素或其子元素时,都会触发该事件。(具有冒泡特性) mouseenter:只有鼠标移入事件所绑定的元素时,才会触发该事件。(不具有冒泡特性) 举例 mouseover&a…

mouseenter和mouseover的区别

mouseover:当鼠标移入目标元素或者移入目标元素的子元素,都会触发该事件。所以有一个重复触发,冒泡的过程。对应的一出事件mouseout。 mouseenter:当鼠标移入目标元素时(不包括子元素),会触发该…

jQuery学习:mouseenter与mouseover区别

mouseenter:只有移入当前元素才会触发&#xff0c;对应mouseleave hover使用的是mouseenter与mouseleave mouseover&#xff1a;在移入子元素时也会触发&#xff0c;对应mouseout <div id"div1">div1<div id"div2">div2</div></div&…

mouseentermouseleave

mouseenter&mouseleave 简介 mouseenter当指针设备&#xff08;通常是鼠标&#xff09;移动到连接了侦听器的元素上时&#xff0c;会触发该事件。 mouseover 当指针设备&#xff08;通常是鼠标&#xff09;移动到附加了侦听器的元素或其子项之一上时&#xff0c;会触发该事…

mouseenter

这几天做下拉菜单&#xff0c;一直想实现鼠标停留在以及菜单即可显示二级菜单并可以浏览二级菜单的功能&#xff0c;最初走了很多弯路。 dropdown 写在是用Bootstrap.js …

mouseenter与mouseover的区别

这是两个事件类型&#xff0c;都是表示鼠标经过触发事件。 还有对应的mouseleave和mouseout&#xff0c;表示鼠标移开触发事件 区别是&#xff1a;mouseenter、mouseleave 不触发冒泡事件 mouseover、mouseout 会触发冒泡事件 首先事件触发后会产生两个阶段&#xff0c;一个是…

简单了解mouseover与mouseenter的使用场景

我们知道鼠标经过和离开的事件有俩种&#xff1a; mouseenter与mouseover&#xff0c;那么这里俩个事件有什么区别呢&#xff1f; mouseenter&#xff1a;给谁注册的事件&#xff0c;就必须经过谁&#xff0c;才能触发该事件 简单来说mouseenter不能冒泡&#xff0c;也就是说经…

mouseenter鼠标事件

mouseenter鼠标事件 1.当鼠标移动到元素上时就会触发mouseenter事件 2.类似mouseover&#xff0c;它们两者之间的差别是 mouseover鼠标经过自身盒子会触发&#xff0c;经过子盒子还会触发。mouseenter只会经过自身盒子触发 这样的原因就是 mouseenter不会冒泡。 <!DOCTYP…

mouseenter和mouseleave与mouseover和mouseout的区别

一、mouseenter&#xff08;指针穿过&#xff0c;子集不执行&#xff09; 当鼠标指针穿过&#xff08;进入&#xff09;被选元素时&#xff0c;会发生 mouseenter 事件。 mouseenter() 方法触发 mouseenter 事件&#xff0c;或添加当发生 mouseenter 事件时运行的函数。 注意…

mouseenter、mouseleave、mouseover和mouseout的区别

mouseenter(进入)、mouseleave、mouseover(覆盖)和mouseout是常用来判断鼠标移出和移入的事件句柄&#xff0c;虽然功能上差不多&#xff0c;但是细节却有不同的地方。 <!DOCTYPE html> <html> <head><meta charset"UTF-8"><title>随…

mouseover事件和mouseenter事件以及mouseleave事件和mouseout事件的区别

1.mouseover事件与mouseenter事件 mouseover事件&#xff1a;不论鼠标指针穿过被选元素或其子元素&#xff0c;都会触发 mouseover 事件。 mouseenter事件&#xff1a;只有在鼠标指针穿过被选元素时&#xff0c;才会触发 mouseenter 事件。 2.mouseout事件与mouseleave事件 …

Git - 教程(廖雪峰)

史上最浅显易懂的Git教程&#xff01; 为什么要编写这个教程&#xff1f;因为我在学习Git的过程中&#xff0c;买过书&#xff0c;也在网上Google了一堆Git相关的文章和教程&#xff0c;但令人失望的是&#xff0c;这些教程不是难得令人发指&#xff0c;就是简单得一笔带过&am…

廖雪峰git学习(3)分支管理【待续】

创建与合并分支 创建分支 git checkout -b dev #创建并切换到分支dev相当于以下两条 git branch dev #创建分支dev git checkout dev #切换到分支dev git branch #可查看当分支 合并分支 git merge dev #将dev分支与master分支合并 删除分支 git branch -d dev#删除dev分支

Git操作——廖雪峰Git教程

这个笔记主要记录的命令&#xff0c;用来翻查命令使用。 学习了一部分&#xff0c;剩下的部分后续更新o(&#xffe3;▽&#xffe3;)ブ 廖雪峰的Git教程 零散的命令&#xff1a; 显示当前目录——pwd显示隐藏目录——ls -ah查看文件 —— cat <文件名> 创建版本库 …