R语言|数据预处理方法

article/2025/8/14 10:37:24

数据预处理的主要内容包括
image.png

数据清洗

原始数据的质量直接影响了数据分析的质量,不符合要求的脏数据有:

  • 无关数据。
  • 重复数据或者含有特殊符号的数据。
  • 缺失值。产生原因是有些数据无法获取,或者获取成本过高,或者获取数据时产生误差。
  • 异常值。指明显偏离其他观测值的数据。

数据清晰需要处理脏数据,包括删除无关数据、重复数据,处理缺失值、异常值。

**缺失值处理:**使用NA表示,is.na识别是否存在缺失值。缺失值常见处理方法:

  • 删除法:使用na.omit()移除缺失行,该方法适用于缺失目标影响不大的情况。
  • 替换法:如果缺少数值型变量,使用均值代替;非数值型变量使用其他全部有效观测值的中位数或众数进行替换。
  • 插补法:回归插补法(利用回归模型预测缺失值)、多重插补法(使用mice函数包产生缺失值随机样本)。

**异常值处理:**使用箱线图、散点图进行识别,如超过上下四分位数 +/- 1.5倍上下四分位数间距的为异常值。还可以使用标准差寻找。异常值的处理方法是:

  • 直接删除。如果样本量很少,或者删除后影响整个数据集,不建议删除。
  • 视为缺失值,利用缺失值的方法处理。
  • 平均值修正。使用前后两个观测值的平均值修正。
  • 不处理。直接在异常值的数据集上进行挖掘建模。

数据集成

将多个数据源的数据集成到一个数据仓库中。R中的数据集成是指将储存在两个数据框中的数据以关键词为依据,以行为单位做列合并。可使用merge()函数,格式为`merge(数据框1, 数据框2, by = ‘关键词’),合并后按关键词取值升序排列。

统一实体。常见的实体不一致为同名不同义、同义不同名、单位不统一。

数据集成中往往出现冗余:同一属性多次出现;同一属性命名不一致,导致重复。可以在数据集成前对冗余部分分析,统一实体。

数据变换

数据变换的目的是把数据变换成适合进一步挖掘的格式。常见方法包括简单函数变换、规范化处理、连续变量的离散化、变量属性的构建。

**简单函数变换:**包括平方、开方、取对数、差分运算。

**规范化处理:**将差别很大的原始数据,变换为[-1,1]或者[0,1]之间的数据。常见的规范化方法包括最小-最大值法,零-均值规范化、小数定标规范化。

# 最小-最大值法
b1 <- (data[,1] - min(data[,1]))/(max(data[,1] - min(data[,1])) # 第一列
b2 <- (data[,2] - min(data[,2]))/(max(data[,2] - min(data[,2])) # 第二列
b3 <- (data[,3] - min(data[,3]))/(max(data[,3] - min(data[,3])) # 第三列
b4 <- (data[,4] - min(data[,4]))/(max(data[,4] - min(data[,4])) # 第四列
data_scatter <- cbind(b1, b2, b3)# 零-均值规范化
data_zscore <- scale(data) # 公式 (x - 均值)/标准差# 小数定标规范化
i1 <- ceiling(log(max(abs(data[,1])),10)) # 指数
c1 <- data[,1]/10^i1
i2 <- ceiling(log(max(abs(data[,2])),10)) # 指数
c2 <- data[,1]/10^i2
i3 <- ceiling(log(max(abs(data[,3])),10)) # 指数
c3 <- data[,1]/10^i3
i4 <- ceiling(log(max(abs(data[,4])),10)) # 指数
c4 <- data[,1]/10^i4
data_dot <- cbind(c1,c2,c3,c4)# 打印结果
options(digits = 4)
data;data_scatter;data_zscore; data_dot                          

**连续属性离散化:**一些分类算法,要求数据是分类属性形式。

首先,在数据集中设定若干个离散划分点,把数据集划分为离散化区间;其次,用不同的符号或整数值代表落在每个子区间的数据值。

常用的离散方法包括等宽法、等频法、一维聚类。

数据规约

数据规约的目的是提高建模的准确性、使用少量且有代表性的数据大幅缩减数据挖掘所需时间、降低数据储存成本。

属性规约:目的是寻找出能反映原始数据集概率分布的最小属性子集,常用方法如下:

image.png

(上图来源《R语言数据分析与挖掘实战》)

主成分分析方法见R语言教程|带你搞清楚主成分分析(PCA)并完成分析。

**数值规约:**选择替代的、较小的数据来减少数据量。包括有参数方法和无参数方法。

有参数方法无需存放数据,只存放参数,如回归(线性回归和多元回归)和对数线性模型。

无参数方法需要储存实际数据,如直方图、聚类、抽样。

主要数据预处理函数

主要函数如下:

函数名函数功能格式
lm()利用因变量与自变量建立线性回归模型m <- lm(y~x1 + x2 + …,data)
predict()依据已有模型对数据进行预测predict(model, newdata)
mice()对缺失数据进行多重插补-
which()返回服从条件的观测所在位置which(约束条件)
scale()对数据进行零-均值规范化Z <- scale(X, center = TRUE, scale = TRUE)
rnorm()随机产生服从正态分布的一列数X <- rnorm(n , u, d^2)
ceiling()向上舍入接近的整数Z <- ceilling(X)
kmeans()对数据进行快速聚类分析Z <- kmeans(X, m)
dwt()对数据进行小波分解Z <- dwt(X, n, levels = m)
princomp()对指标变量矩阵进行主成分分析Z <- princomp(X, cor=TURE)

(上图来源《R语言数据分析与挖掘实战》 P61)


http://chatgpt.dhexx.cn/article/BIbhSnSd.shtml

相关文章

数据预处理流程

数据预处理流程总结 下面分享一下自己通常会用到的一些数据预处理的方法和步骤&#xff0c;用Kaggle平台上的elo用户忠诚度预测的数据集作为应用案例。 import numpy as np import pandas as pd import matplotlib.pyplot as plt plt.rcParams[font.sans-serif][SimHei] merch…

transforms数据预处理方法(一)

transforms数据预处理方法&#xff08;一&#xff09; 文章目录 transforms数据预处理方法&#xff08;一&#xff09;1.transforms——裁剪(1) transforms.CenterCrop(size)(2) transforms.RandomCrop (size, padding None , pad_if_needed False ,fill 0 , padding_mode cons…

大数据处理之道(预处理方法)

一&#xff1a;为什么要预处理数据&#xff1f; &#xff08;1&#xff09;现实世界的数据是肮脏的&#xff08;不完整&#xff0c;含噪声&#xff0c;不一致&#xff09; &#xff08;2&#xff09;没有高质量的数据&#xff0c;就没有高质量的挖掘结果&#xff08;高质量的决…

过程数据_数据预处理的方法

首先,我们先来搞清楚,什么叫“过程数据”?以及什么叫“结果数据”? 简单来讲,“过程数据”指的是我们可以掌握的事务和行为“结果数据”就是我们不能完全掌控的。过程数据的英文翻译 基本释义 process data 参考释义过程数据的相关资料 临近单词 过半数 过 过期作废 过气 过谦…

类别型数据的预处理方法

在机器学习过程中,我们往往需要对数据进行预处理。根据数据的取值情况,我们可以把数据总体分为两大类:类别型数据和数值型数据。 对于数值性变量,通常不需要对其进行编码处理。而如何处理类别型数据是一个难题。处理的方法有很多种,各有优缺并且各有适用的范围。 本文在收…

大数据预处理方法,来看看你知道几个

大数据蕴含巨大价值&#xff0c;引起了社会各界的高度关注。大数据的来源多种多样&#xff0c;从现实世界中采集的数据大体上都是不完整、不一致的脏数据&#xff0c;无法直接进行数据挖掘和分析&#xff0c;或分析挖掘的结果差强人意。为了提高数据分析挖掘的质量&#xff0c;…

机器学习中数据预处理的几种方法

由于实际收集到的机器学习数据集不可避免的会存在数据缺、数据集不平衡和数据集中各类数据非同一量级等情况&#xff0c;对缺失数据进行补全和对异常数据进行清洗、均衡化处理防止类别不平衡和数据标准化处理对于机器学习模型至关重要。 1 数据补全方法 有效地恢复缺失的数据是…

常见近红外/红外光谱数据预处理方法及MATLAB实现

在近红外等光谱数据分析建模过程中&#xff0c;最关键的一步除了特征选择之外就是光谱数据预处理&#xff0c;预处理的原因是光谱数据除了纯光谱&#xff08;pure spectra&#xff09;之外还包含基线漂移、噪声等信号&#xff0c;与此同时存在着因样本大小以及环境等因素带来的…

数据预处理常用方法总结

目录 一、数据清理1 处理缺失值2 噪声数据 二、数据集成1 实体识别2 冗余和相关分析3 数值冲突的检测与处理 三、数据变换1 数据规范化2 数据离散化3 概念分层 数据预处理包括多种方法&#xff0c;诸如数据清理、数据集成、数据变换等。 一、数据清理 数据清理主要是处理缺失…

数据预处理的方法有哪些

数据处理的工作时间占整个数据分析项目的70%以上&#xff0c;因此&#xff0c;数据的质量直接决定了分析模型的准确性。那么&#xff0c;数据预处理的方法是什么呢&#xff1f;例如数据清理、数据集成、数据规范、数据转换等&#xff0c;其中最常用的是数据清理和数据集成&…

数据预处理(方法总结)

数据预处理&#xff08;方法总结&#xff09; 转自-https://www.cnblogs.com/sherial/archive/2018/03/07/8522405.html 一、概述 在工程实践中&#xff0c;我们得到的数据会存在有缺失值、重复值等&#xff0c;在使用之前需要进行数据预处理。数据预处理没有标准的流程&…

机器学习算法笔记之6:数据预处理

一、概述 在工程实践中&#xff0c;我们得到的数据会存在有缺失值、重复值等&#xff0c;在使用之前需要进行数据预处理。数据预处理没有标准的流程&#xff0c;通常针对不同的任务和数据集属性的不同而不同。数据预处理的常用流程为&#xff1a;去除唯一属性、处理缺失值、属…

Python的数据分析可视化十种技能总结

常见的可视化试图列举 可视化视图可以分成4大类&#xff1a;比较、联系、构成和分布。他们的特点如下&#xff1a; 1、比较&#xff1a;比较数据之间的各类别的关系&#xff0c;或者是他们随着时间的变化趋势&#xff0c;比如折线图&#xff1b;2、联系&#xff1a;查看两个或…

python 典型变量分析

典型相关分析 1.典型相关分析的基本思想是首先在每组变量中找出变量的线性组合&#xff0c;使其具有最大相关性&#xff0c;然后再在每组变量中找出第二对线性组合&#xff0c;使其分别与第一对线性组合不相关&#xff0c;而第二对本身具有最大的相关性&#xff0c;如此继续下…

脑影像分析|数据分析——单个变量或多个变量与y的皮尔逊相关,同时返回r与p值(python)

| 图源 皮尔逊相关是计算两个变量之间线性相关关系&#xff0c;或者两个向量共线程度的常用指标&#xff0c;应返回衡量相关程度的r值&#xff0c;和相关显著程度的p值。我们熟知的工具包&#xff0c;如pandas&#xff0c;numpy和scipy等&#xff0c;只能计算单个变量x与变量y之…

SPSS处理多自变量多因变量分析以及描述平均值,在不同情况

SPSS处理工具&#xff1a;SPSS25.0 准备好数据 1.分析多自变量对某一个因变量的显著性 在分析里找到&#xff0c;General linear model,然后选择Univariate, 分别把两个自变量TIssue and Speed 输入到Fixed Factor&#xff0c;然后设置Option里的描述,如果需要其他的设置可以…

R语言实现双变量分析教程

双变量分析表示分析两个变量。 双变量分析是为了分析两个变量之间的关系&#xff0c;与单变量、多变量分析对应。主要有三种方式进行双变量分析。 散点图相关系数简单线性回归 下面使用测试数据作为示例来演示三种方法&#xff0c;供包括两个变量&#xff0c;HourStudied表示…

spss实战案例----分析多个变量与因变量之间是否存在关系,方差分析

本案例是IBM SPSS数据分析与挖掘实战案例精粹----第七章的学习记录 案例背景或目标&#xff1a;激素水平是否在对照组和实验组之间存在差异 分析方法&#xff1a;Bootstrap抽样&#xff0c;秩和检验&#xff0c;秩变换方法&#xff0c;cox回归 字段包括&#xff1a;性别&…

Python学习16 ----Seaborn多变量分析绘图

Seaborn多变量分析绘图 代码详见https://github.com/RenDong3/Python_Note 1 读取数据 2 分析绘图 parameters: x,y,hue 数据集变量 变量名data 数据集 数据集名row,col 更多分类变量进行平铺显示 变量名col_warp 每行的最高平铺数 整数estimator 在每个分类中进行矢量到标…

用SPSS进行多变量数据分析

用SPSS进行多变量数据分析 1.将所给的数据输入SPSS 22.0中文版。分别设置变量为温度&#xff0c;体重1、2、3、4&#xff1b;体重&#xff0c;温度5、10、15、20、30。 2.用SPSS进行作图&#xff08;过程略&#xff09;。 3.对数据进行多因素变量分析&#xff0c;具体操作如…