机器学习中数据预处理的几种方法

article/2025/8/14 21:55:15

      由于实际收集到的机器学习数据集不可避免的会存在数据缺、数据集不平衡和数据集中各类数据非同一量级等情况,对缺失数据进行补全和对异常数据进行清洗、均衡化处理防止类别不平衡和数据标准化处理对于机器学习模型至关重要。

数据补全方法

      有效地恢复缺失的数据是进行机器学习建模的重要前期准备工作。一方面可使得数据更完整,便于后续进一步的分析研究,另一方面,数据补全本身就是对信息进行挖掘的一种方式。

      常见的数据补全方法包括均值补全、回归填补法、期望最大化填补法、高斯混合模型(Gaussian Mixture Model , GMM)补全 C均值(C-Means)补全 K近邻(K Nearest Neighbors , KNN)补全、决策树填补法等。

数据均衡方法

      由于实际情况,例如在信用卡欺诈检测数据集中,大多数信用卡交易类型都不是欺诈,仅有很少一部分类型是欺诈交易,如此以来,非欺诈交易和欺诈交易之间的比率达到50:1,导致数据集不平衡问题,因此需要对数据进行均衡化处理以平衡各类,从而避免种类欠均衡而造成的负面效应。常见的均衡化方法有“欠采样”和“过采样”两类,“欠采样”就是从数量多的.类别中随机丢弃一些数据,从而保证类别均衡,而“过采样”则是增加数量较少样本的采样频率或对训练集数据进行插值来保证类别均衡。“欠采样”会导致训练数据规模减小,可能丢失数据,而“过采样”若直接对初始数据进行多次采样会导致严重的过拟合。

      SMOTE是解决数据集不平衡问题的一种过采样方法。与一般的抽样方法不同,SMOTE并非简单地拷贝样本,而是按照一定规则合成少数类样本,以达到平衡类别的目的

3 数据归一化

      数据归一化处理是机器学习中的一项挖掘数据的基础工作,其目的是将取值范围相差较大的不同类型的测井曲线通过一种无量纲的处理手段,将原始数据值通过函数转换变成具有某种相对关系的相对值,数据量缩小到特定范围之内。

      数据经过归一化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是三种常用的归一化方法:

1)最值归一化(min-max normalization, MMN

      也称为线性归一化,是对原始数据进行线性变换,将原始数据点映射到[ 0,1 ],也可以映射到自己定义的某个区间内。假设样本数据有 个,其转换函数如下

      其中Ximax为样本数据的最大值,Ximin为样本数据的最小值。

      最值归一化的优点是,使用简单、快速、灵活,缺点是当数据存在极端点(如只有一两个数值极大或极小),将会影响整个数据处理过程,造成映射后数据质量很差。

2)标准分数归一化方法(z-score normalizationZSN

原始数据经标准分数归一化后的数据呈标准正态分布,即均值是0,标准差为1。假设样本数据有 个,其转换函数如下所示:

      其中\mu为原始数据的均值, \sigma为原始数据的标准差,是当前用得最多的数据标准化方式。

3)中值归一化方法(median normalizationMDN

      中值归一化首先寻找原数据的中值,然后使用最大值最小值的差作为比例因子,将原始数据映射到某个区间内,一般是把零点作为区间中值,区间定为(-1,+1)或某个自定的范围。此方法多用于数据中没有错误样本,而只是单纯的将整个数据进行等比例的扩大或者缩小。

      假设样本数据有 n个,其转换函数如下所示::

  


http://chatgpt.dhexx.cn/article/oAQe0Amt.shtml

相关文章

常见近红外/红外光谱数据预处理方法及MATLAB实现

在近红外等光谱数据分析建模过程中,最关键的一步除了特征选择之外就是光谱数据预处理,预处理的原因是光谱数据除了纯光谱(pure spectra)之外还包含基线漂移、噪声等信号,与此同时存在着因样本大小以及环境等因素带来的…

数据预处理常用方法总结

目录 一、数据清理1 处理缺失值2 噪声数据 二、数据集成1 实体识别2 冗余和相关分析3 数值冲突的检测与处理 三、数据变换1 数据规范化2 数据离散化3 概念分层 数据预处理包括多种方法,诸如数据清理、数据集成、数据变换等。 一、数据清理 数据清理主要是处理缺失…

数据预处理的方法有哪些

数据处理的工作时间占整个数据分析项目的70%以上,因此,数据的质量直接决定了分析模型的准确性。那么,数据预处理的方法是什么呢?例如数据清理、数据集成、数据规范、数据转换等,其中最常用的是数据清理和数据集成&…

数据预处理(方法总结)

数据预处理(方法总结) 转自-https://www.cnblogs.com/sherial/archive/2018/03/07/8522405.html 一、概述 在工程实践中,我们得到的数据会存在有缺失值、重复值等,在使用之前需要进行数据预处理。数据预处理没有标准的流程&…

机器学习算法笔记之6:数据预处理

一、概述 在工程实践中,我们得到的数据会存在有缺失值、重复值等,在使用之前需要进行数据预处理。数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而不同。数据预处理的常用流程为:去除唯一属性、处理缺失值、属…

Python的数据分析可视化十种技能总结

常见的可视化试图列举 可视化视图可以分成4大类:比较、联系、构成和分布。他们的特点如下: 1、比较:比较数据之间的各类别的关系,或者是他们随着时间的变化趋势,比如折线图;2、联系:查看两个或…

python 典型变量分析

典型相关分析 1.典型相关分析的基本思想是首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与第一对线性组合不相关,而第二对本身具有最大的相关性,如此继续下…

脑影像分析|数据分析——单个变量或多个变量与y的皮尔逊相关,同时返回r与p值(python)

| 图源 皮尔逊相关是计算两个变量之间线性相关关系,或者两个向量共线程度的常用指标,应返回衡量相关程度的r值,和相关显著程度的p值。我们熟知的工具包,如pandas,numpy和scipy等,只能计算单个变量x与变量y之…

SPSS处理多自变量多因变量分析以及描述平均值,在不同情况

SPSS处理工具:SPSS25.0 准备好数据 1.分析多自变量对某一个因变量的显著性 在分析里找到,General linear model,然后选择Univariate, 分别把两个自变量TIssue and Speed 输入到Fixed Factor,然后设置Option里的描述,如果需要其他的设置可以…

R语言实现双变量分析教程

双变量分析表示分析两个变量。 双变量分析是为了分析两个变量之间的关系,与单变量、多变量分析对应。主要有三种方式进行双变量分析。 散点图相关系数简单线性回归 下面使用测试数据作为示例来演示三种方法,供包括两个变量,HourStudied表示…

spss实战案例----分析多个变量与因变量之间是否存在关系,方差分析

本案例是IBM SPSS数据分析与挖掘实战案例精粹----第七章的学习记录 案例背景或目标:激素水平是否在对照组和实验组之间存在差异 分析方法:Bootstrap抽样,秩和检验,秩变换方法,cox回归 字段包括:性别&…

Python学习16 ----Seaborn多变量分析绘图

Seaborn多变量分析绘图 代码详见https://github.com/RenDong3/Python_Note 1 读取数据 2 分析绘图 parameters: x,y,hue 数据集变量 变量名data 数据集 数据集名row,col 更多分类变量进行平铺显示 变量名col_warp 每行的最高平铺数 整数estimator 在每个分类中进行矢量到标…

用SPSS进行多变量数据分析

用SPSS进行多变量数据分析 1.将所给的数据输入SPSS 22.0中文版。分别设置变量为温度,体重1、2、3、4;体重,温度5、10、15、20、30。 2.用SPSS进行作图(过程略)。 3.对数据进行多因素变量分析,具体操作如…

解读SPSS多元方差分析中的多因素多变量的相互影响

多元方差分析研究的是多个自变量与多个因变量的相互关系,也被称为多变量分析。在《怎么使用SPSS的多元方差分析法》一文中,我们已经详细学习了IBM SPSS Statistics多元方差分析的设置方法。 本文将会重点介绍如何解读多元方差分析的检验结果。由于多元方…

高维数据中特征筛选方法的思考总结——多变量分析筛选法

前言:之前的文章(高维数据中特征筛选方法的思考总结——单变量分析筛选法)中,对单变量分析筛选变量进行了初步考量,本文将进一步总结多变量分析筛选法。由于本文多处摘录网上的博客,只是进行了归纳整理&…

R语言实现单变量分析教程

单变量分析是理解单个变量的数值分布情况,与之相对的有双变量分析和多变量分析。 加载示例数据 因为csv文件中年收入字段有千分位分隔符,所以先定义转换函数。 setClass("num.with.commas") setAs("character", "num.with.co…

多变量分析绘图及分类属性绘图【知识整理】

多变量分析绘图及分类属性绘图 综述代码模块多指标离散图绘制盒图violin图条形图点图多层面板分类图factorplot()详细说明 小结 综述 学生党整理一些关于数据分析的知识:整理了多变量分析绘图及分类属性绘图的相关代码。主要包括了多指标离散图的绘制、盒图的绘制、…

python多变量相关性分析_多变量相关性分析(一个因变量与多个自变量)

目录:前言 偏相关或复相关 意义与用途 分析方法: 1、 样本相关系数矩阵、相关系数检验 2、 复相关分析 3、 决定系数 (RMSE的介绍) 小结 一、前言: 继上一篇文章,继续探讨相关性分析,这次不再是两个变量,而是3个或者以上的变量之间的相关关系分析。 没读过上…

一文了解11个常见的多变量分析方法!

在社会科学研究中,主要的多变量分析方法包括多变量方差分析(Multivariate analysis of variance,MANOVA)、主成分分析(Principal component analysis)、因子分析(Factor analysis)、…

多变量分析”——数据挖掘、数据分析

I。多重对应分析 多重对应分析在超过两个以上定类变量时有时候非常有效,当然首先我们要理解并思考,如果只有三个或有限的几个变量完全可以通过数据变换和交互表变量重组可以转换成两个定类变量,这时候就可以用简单对应分析了。 对应分析对数据…