数据归归一化方法(标准化)

article/2025/9/15 10:43:20
数据归一化方法

      数据标准化(normalization)数据标准化处理主要包括数据同趋化处理无量纲化处理两个方面。


      数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。

数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。


      数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。

一、 标准化
     标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过 标准化映射成在区间[0,1]中的值 ,其公式为:
                         新数据=(原数据-极小值)/(极大值-极小值)

也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下:

                                               

 

其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。


 二、z-score 标准化

    这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x'。
    z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
                           新数据=(原数据-均值)/标准差
这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:
                                                         
其中 u为所有样本数据的均值, *所有样本数据的标准差。

    例如:spss默认的标准化方法就是z-score标准化。
    用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。
步骤如下:
    1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
    2.进行标准化处理:
      zij=(xij-xi)/si
      其中:zij为标准化后的变量值;xij为实际变量值。
    3.将逆指标前的正负号对调。
    标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
三、Decimal scaling小数定标标准化
   这种方法通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A的取值中的最大绝对值。将属性A的原始值x使用decimal scaling标准化到x'的计算方法是:
                                   x'=x/(10*j)

    其中,j是满足条件的最小整数。


    例如 假定A的值由-986到917,A的最大绝对值为986,为使用小数定标标准化,我们用1000(即,j=3)除以每个值,这样,-986被规范化为-0.986。
    注意,标准化会对原始数据做出改变,因此需要保存所使用的标准化方法的参数,以便对后续的数据进行统一的标准化。
四、对数Logistic模式
         新数据=1/(1+e^(-原数据))
         对数函数转换,表达式如下:
  y=log10(x)
  说明:以10为底的对数函数转换。
五、模糊量化模式
      新数据=1/2+1/2sin[3.1415/(极大值-极小值)*(X-(极大值-极小值)/2) ]       X为原数据
   反余切函数转换,表达式如下:
  y=atan(x)*2/PI
 
资料整理自网络,感谢原作者。


http://chatgpt.dhexx.cn/article/WqCBbBq9.shtml

相关文章

特征锦囊:特征无量纲化的常见操作方法

今日锦囊 特征无量纲化的常见操作方法 第一招,从简单的特征量纲处理开始,这里介绍了3种无量纲化操作的方法,同时也附上相关的包以及调用方法,欢迎补充! 无量纲化:即nondimensionalize 或者dimensionless&am…

数据挖掘——无量纲化

在进行特征选择之前,一般会先进行数据无量纲化处理,这样,表征不同属性(单位不同)的各特征之间才有可比性,如1cm 与 0.1kg 你怎么比?无量纲处理方法很多,使用不同的方法,对…

量纲与无量纲、标准化、归一化、正则化【能够帮助梯度下降中学习进度收敛的更快、提升模型的收敛速度提升模型的精度、防止模型过拟合,提高模型的泛化能力】

目录 1 量纲与无量纲 1.1 量纲 1.2 无量纲 2 标准化 3 归一化 归一化的好处 4 正则化 5 总结 1 量纲与无量纲 1.1 量纲 物理量的大小与单位有关。就比如1块钱和1分钱,就是两个不同的量纲,因为度量的单位不同了。 1.2 无量纲 物理量大小与单位…

数据预处理----数据无量纲化(归一化和标准化)

文章目录 概述数据挖掘的五大步骤skleran中的数据处理和特征工程 数据预处理Preprocessing数据无量纲化数据归一化---MinMaxScaler示例 数据标准化----StandardScaler示例 MinMaxScaler和StandardScaler应该选哪个 概述 数据挖掘的五大步骤 数据获取数据预处理 数据预处理是从…

数学分析模型(一):数据的无量纲处理方法及示例(附完整代码)

数据的无量纲处理方法及示例(附完整代码) (1)极值化方法(2)标准化方法(3)均值化方法示例要求建模步骤程序结果备注在对实际问题建模过程中,特别是在建立指标评价体系时,常常会面临不同类型的数据处理及融合。而各个指标之间由于计量单位和数量级的不尽相同,从而使得…

数据无量纲化

数据无量纲化 在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”。譬如梯度和矩阵为核心的算法中,譬如逻辑回归,支持向…

量纲化处理汇总

在实际研究中,不同的变量单位不同,数值差异极大。例如100g和1m等。 因此有时需要对数据进行去量纲,所谓的去量纲就是‘去掉’单位对数值的影响。但是量纲化有很多种方式,但具体应该使用哪一种方式,并没有固定的标准&am…

数据预处理--无量纲化

1.无量纲化定义 无量纲化,也称为数据的规范化,是指不同指标之间由于存在量纲不同致其不具可比性,故首先需将指标进行无量纲化,消除量纲影响后再进行接下来的分析。 2.无量纲化方法 无量纲化方法有很多,但是从几何角度来…

多指标综合评价中指标正向化和无量纲化方法的选择

摘要:本文用实例说明了多指标综合评价中,用“倒数逆变换法”进行指标正向化时会完全改变原指标的分布规律,影响综合评价结果的准确性;对三种常用无量纲化方法——极差变换法、标准化法和均值化法的选择使用问题,用实例…

量纲与无量纲,标准化、归一化、正则化

量纲与无量纲,标准化、归一化、正则化 1 量纲与无量纲1.1 量纲1.2 无量纲 2 标准化3 归一化4 正则化5 总结 1 量纲与无量纲 1.1 量纲 量纲我觉得最重要的一句话是:物理量的大小与单位有关。 从这句话我们来思考下最核心的两个单词:大小、单…

数据预处理之数据无量纲化(标准化/归一化)

在进行特征选择之前,一般会先进行数据无量纲化处理,这样,表征不同属性(单位不同)的各特征之间才有可比性,如1cm 与 0.1kg 你怎么比?无量纲处理方法很多,使用不同的方法,对…

无量纲化

参考博客:https://www.zhihu.com/question/29316149 1,无量纲化使不同规格的数据转换到同一规格。 2,常见的无量纲化方法有标准化和区间缩放法。 2.1**标准化**的前提是特征值服从正态分布,标准化后,其转换成标准正态分布。   标准化需要计算特征的…

什么是无量纲化

首先来了解什么是量纲? 量纲和单位的区别,长度,时间,质量等都叫做量纲,而米,千米,秒,分钟,等都是单位, 国际单位制规定了七个基本量纲单位,这七个…

常用的数据无量纲化方法

常用的数据无量纲方法 常用的数据无量纲方法都有什么?1.min-max归一化2.z-score标准化 常用的数据无量纲方法都有什么? 1.min-max归一化 该方法是对原始数据进行线性变换,将其映射到[0,1]之间([-1,1]之间也行)。 d…

数据预处理——无量纲化处理

数据预处理——无量纲化处理 1.无量纲化定义 无量纲化,也称为数据的规范化,是指不同指标之间由于存在量纲不同致其不具可比性,故首先需将指标进行无量纲化,消除量纲影响后再进行接下来的分析。 2.无量纲化方法 无量纲化方法有很…

几种指标无量纲化的方法

统计指标的无量纲化就是将统计指标的实际值转化为评价值。由于统计指标的性质不同,相应地,统计指标实际值转化为评价值的方法也就不同。 一、线性无量纲化方法 如果无量纲化的指标评价值与指标的实际值之间是呈现线性关系的,这种无量纲化方…

Latex公式换行编写

latex在写公式时往往会遇到长公式或者连续等于的情况,这时可以选择公式换行操作: \begin{equation}\begin{aligned}a & bc\\& cb\end{aligned} \end{equation} 得到如下的效果: 其中&是用于标注需要对齐的位置,例如…

Latex 多行公式换行对齐

\begin{equation} \begin{split} x&abc\\ &de\\ &fg \end{split} \end{equation} 效果:

LaTex排版技巧:[15]公式太长如何换行

当我们输入的公式较长时,最容易想到的方法是,在会出现越界的情况,使用强制换行\\,但是这种方法在公式中行不通。 通常,我们行间公式的换行可使用split 环境来实现。如 \[ \begin{split} x & \sqrt {1-y^2}\\ x &am…

LaTex常用技巧5:公式太长换行并加大括号

使用LaTex做笔记的时候发现公式太长,一行会超出页面,于是想到换行。 原来的代码,这里使用了包bm,测试的时候前面请使用\usepackage{bm}。 \begin{equation}_{i}^{G} {\bm{a}}\begin{cases} _{i}^{i-1}\ddot{\bm{p}}, &i1\\_…