本文介绍数值属性刻画的对象之间的相异性度量,首先,应该把数据进行规范化,使之落入更小的值域,例[0,1],[0.0,1.0]
1:最流行的距离度量:欧几里得距离
2:曼哈顿距离
3:闵可夫斯基距离
其中 h>=1
当h=1,表示的是曼哈顿距离
当h=2,表示的是欧几里得距离
序数属性的相异性则与此非常相似
序数属性:顾名思义,这个属性可选的值之间是有序的
例:序数属性size:small,medium,large(三者之间是有序的)
问:如何计算相异性
答:对于属性可选值,我们可以赋予其一个函数,表征为一个数字
上例中,可表征为1,2,3.为了数据规范化,落入一个更小的范围,可以将其映射到[0,1]
上例中,将1映射为0,2映射为0.5,3映射为1
再通过欧几里得距离即可获得相异性矩阵(或者别的距离公式)