数据挖掘实战(聚类分析)

article/2025/9/29 15:26:56

目录

数据探索

数据初步认识

查看数据相关信息

图形数据探索

回归分析

矩阵图分析

相关性分析

数据预处理

k-means聚类

算法简介

算法实现

k-medoids方法

算法简介

算法实现

层次聚类

som方法

实验对比


数据探索

数据初步认识

为研究我国31个省市的城镇居民生活消费的规律,根据调查资料作区域消费类型划分地区了解到数据集data.xlsx。部分数据如下图所示:

查看数据相关信息

先导入相关包

再查看数据集信息

查看摘要统计。

图形数据探索

回归分析

查看食品与衣着和居住之间的关系

绘制图形如下:

矩阵图分析

生成各特征之间关系的矩阵图:

相关性分析

最后,通过热图找出数据集中不同特征之间的相关性,高正值或负值表明特征具有高度相关性。

数据预处理

查看有无缺失值

可以看出没有缺失值,数据已经处理完毕的数据。

k-means聚类

算法简介

K-means聚类算法的最终目标就是根据输入参数k,把数据对象分成k个簇。基本思想:首先指定需要划分的簇的个数k值;然后随机地选择k个初始数据对象点作为初始的聚类中心;第三,计算其余的各个数据对象到这k个初始聚类中心的距离(这里一般采用距离作为相似性度量),把数据对象划归到距离它最近的那个中心所处在的簇类中;最后,调整新类并且重新计算出新类的中心。如果两次计算出来的聚类中心未曾发生任何的变化,那么就可以说明数据对象的调整己经结束,也就是说聚类采用的准则函数是收敛的,表示算法结束。

算法特点:

K-Means算法的特点就是调整一个数据样本后就修改一次聚类中心以及聚类准则函数的值,当n个数据样本完全被调整完后表示一次迭代完成,这样就会得到新的簇和聚类中心的值。若在一次迭代完成之后,聚类准则函数的值没有发生变化,那么表明该算法已经收敛,在迭代过程中值逐渐缩小,直到达到最小值为止。该算法的本质是把每一个样本点划分到离它最近的聚类中心所在的类。

算法实现

使用python中skicit-learn模块进行k-均值算法的实验。采用交叉验证的方法,分别取簇数为2,3,4,5,6这5种情况,分别计算簇中各点与类中心的距离平方和(CH系数)与轮廓系数如图所示。

先导入相关包

先导入相关包

再加载数据

查看加载的数据,生成一个数组

定义求聚类的函数

调用函数生成图形

得到结果如下图所示

图形可视化:

包括五种聚类的分析,并给出最佳的聚类结果。可以得到,当n为2时,聚类效果最好。

可以得到结果:

      北京、上海、浙江、广东等省份经济较为发达,消费水平较高聚集为一簇,其它省份聚集为另外一类,聚类结果比较合理。

k-medoids方法

算法简介

      K-中心点聚类算法的基本思想为:选用簇中位置最中心的对象,试图对n个对象给出k个划分,代表对象也被称为是中心点,其他对象则被称为非代表对象。最初随机选择k个对象作为中心点,该算法反复地用非代表对象来代替代表对象,试图找出更好的中心点,以改进聚类的质量;在每次迭代中,所有可能的对象对被分析,每个对中的一个对象是中心点,而另一个是非代表对象。每当重新分配发生时,平方误差所产生的差别对代价函数有影响。因此,如果一个当前的中心点对象被非中心点对象所代替,代价函数将计算平方误差值所产生的差别。替换的总代价是所有非中心点对象所产生的代价之和。如果总代价是负的,那么实际的平方误差将会减小,代表对象  可以被非代表对象替代。如果总代价是正的,则当前的中心点被认为是可接受的,在本次迭代中没有变化。

优点:对噪声点/孤立点不敏感,具有较强的数据鲁棒性;

        聚类结果与数据对象点输入顺序无关;

        聚类结果具有数据对象平移和正交变换的不变性等。

缺点:在于聚类过程的高耗时性。对于大数据集,K-中心点聚类过程缓慢的主要原因在于:通过迭代来寻找最佳的聚类中心点集时,需要反复地在非中心点对象与中心点对象之间进行最近邻搜索,从而产生大量非必需的重复计算。

算法实现

代码如下:

取data数据的部分列来进行k-medoids聚类

绘制图形如下图所示

分别得到分为2,3,4,5簇的结果,更加明确的得出结果。

层次聚类

      层次聚类的应用广泛程度仅次于基于划分的聚类,核心思想就是通过对数据集按照层次,把数据划分到不同层的簇,从而形成一个树形的聚类结构。

      层次聚类算法可以揭示数据的分层结构,在树形结构上不同层次进行划分,可以得到不同粒度的聚类结果。按照层次聚类的过程分为自底向上的聚合聚类和自顶向下的分裂聚类。目前大多数是自底向上的聚合聚类,自顶向下的分裂聚类比较少。

      1)自底向上的聚合聚类将每个样本看作一个簇,初始状态下簇的数目等于样本的数目,然后根据算法的规则对样本进行合并,直到满足算法的终止条件。代表算法: AGNES、BIRCH、ROCK

      2)自顶向下的分裂聚类先将所有样本看作属于同一个簇,然后逐渐分裂成更小的簇,直到满足算法终止条件为止。代表算法: DIANA。

算法实现:

定义函数

再绘制图形,得到以下结果

其中横轴为树状图高度,纵轴为各个省份的名称。

由图可知,在height为1500时,可以分为两类,第一类是浙江,北京,广东和上海,其他为第二类,和k-means得到的结果一致。

som方法

SOM(Self Organizing Maps ) 的目标是用低维目标空间的点来表示高维空间中的点,并且尽可能保持对应点的距离和邻近关系(拓扑关系),该算法可用于降维和聚类等方面。

根据层次聚类结果,当height为1000时,

实现降维可视化

定义函数如下:

得到结果如下:

每个颜色对应不同类的城市

可以很明显的看出聚类结果,上海远远超过了其他城市。

实验对比

根据实验结果对比,四种聚类方法都能很明显的看出聚类结果。

k-means:得到的结果为分为两类是最优,轮廓系数为62%,表示该分类最紧密,得到的结果也越准确。缺点是需要一个一个来求出每个分类的结果,分类讨论来得出哪种分类的最优,比较麻烦。

k-medoids:和k-means差不多,k-means的质心是各个样本点的平均,而k-medoids随机选取K个质心的值,但是k-medoids准确度最高,从结果来看的话,得到的数据相比k-means更加准确,更加明显的看出哪个地区的消费水平比较高,但是运行速度太慢。

层次聚类:绘制出图形来表示分类结果,并且分类结果在一个图形上表示出来,生成一个树状图,可以很准确的看出当值为多少时是分为几类,向横坐标轴上绘制一条竖线,相交处的点的个数即为分类的簇数,可以看出哪一种分类更加准确。

Som:根据层次聚类进一步分析结果,先降维,得到可视化图形。一个是图形,一个是树状图,在可视化方面,图形更能直观的表示出结果。

数据集和源码都在资源里,转战资源😀


http://chatgpt.dhexx.cn/article/cvexI9PQ.shtml

相关文章

基于数据挖掘的疾病数据可视化分析与预测系统

温馨提示:文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 1. 项目简介 随着医院信息系统(HIS)在全国各大医院的推广和应用,会有大量和病人相关的临床数据每天在医院中记录,而这些真实的数据随着规模积累的增加&a…

2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)

海量数据挖掘分析与可视化实战报告 课程名称:海量数据挖掘分析与可视化实战 实训学期: 2021-2022学年第二学期 实训时间: 第16周 专 业: 数据科学与大数据技术 班 级: …

数字MIC(es7202 PDM协议)MIC录音声音较小

问题:我司有个项目,android 11 rk3566 的项目,该项目带audio 模块,项目MIC 使用的es7202(ADC),该芯片是一个编码芯片,没有解码功能,该模块的录音的增益已经调到最大,但录入的MIC音量…

麦克风MIC 工作原理以及灵敏度调整

1、先看MIC电路连接 这是个差分输入的例子,MICP2和MICN2是一对差分信号,经过C156的滤波,输入到MIC两端 MIC两引脚分别是到地和供电,上图的R177参数就关系到MIC输入的灵敏度 2、电阻R177影响灵敏度分析 MICBIAS是提供MIC的偏置电压…

WO Mic -免费话筒

原文:https://wolicheng.com/womic/ WO Mic -免费话筒 一、特点 WO Mic 可以把你的手机变成电脑的麦克风。您无需支付一分钱即可购买任何小工具。如果您选择无线传输,它就是移动的。数以百万计的人安装了它,并且每天都在使用它进行通话、录…

麦克风测试指标术语

麦克风测试指标术语 1. dB 2. 谐波 3. THD 4. 灵敏度 5. 频率响应 6. 本底噪音 7. 持续中。。。 1,dB 多数的麦克风技术指标里最基础的就是dB 的单位。分贝是一个相对数,等同于人耳在声音的压力下感到的变化曲线。此外,分贝的变化是很…

浅析硬件“好声音”:麦克风技术指标及选型指南

如今大多数IoT类设备都具有语音唤醒和声控的功能,如天猫精灵、百度音箱等。 这类设备中都集成了麦克风和喇叭等电声器件,其中麦克风用于识别用户的声音,喇叭用于播放设备对用户指令的反应。麦克风的性能是影响语音唤醒率高低的重要因数&…

麦克风概述

麦克风可以将声音的变化通过特定的机制转换为电压或者电流的变化,再交给电路系统进行处理。声音的强度,通过声压表示,对应电压或电流的幅值;声音变化的快慢,则对应电信号的频率。 声压级和距离的关系:其中…

硬件参数 调整 麦克风MIC灵敏度 原理

1、先看MIC电路连接 这是个差分输入的例子,MICP2和MICN2是一对差分信号,经过C156的滤波,输入到MIC两端 MIC两引脚分别是到地和供电,上图的R177参数就关系到MIC输入的灵敏度 2、电阻R177影响灵敏度分析 MICBIAS是提供MIC的偏置电…

浏览器检测麦克风音量

开发直播类的Web应用时在开播前通常需要检测设备是否正常,本文就来介绍一下如果如何做麦克风音量的可视化。 AudioWorklet出现的背景 做这个功能需要用到 Chrome 的 AudioWorklet。 Web Audio API 中的音频处理运行在一个单独的线程,这样才会比较流畅。…

最大信息系数(MIC)

童鞋们觉得文章不错,就麻烦点一下下面人工智能的教程链接吧,然后随便翻阅一下 https://www.captainbed.net/qtlyx MIC(Maximal information coefficient)一个很神奇的东西,源自于2011年发在sicence上的一个论文。 学…

麦克风基础参数

麦克风由Microphone读音翻译的,正确的翻译为微音器,或者称拾音器,传声器。我们的咪芯其实就是一只麦克风,只不过属于半成品。给它加网罩,手柄,开关,导线就成了一支完整的麦克风了。 我们生产的…

mic的灵敏度和声音的大小

今天查看麦克风的一些资料,发现这个博客写得很好,不知道这样转载是否可以。 mic的灵敏度和声音的大小 我对于mic的灵敏度一直无法说出其准确定义的表述。我看过mic的sepc上面都是标注的负的多少dB,比如-42dB。所以我一直认为-30dB的mic的灵…

MIC(最大信息系数)

MIC 我在论文使用MIC来衡量两个基因之间的关联程度,线性或非线性关系,相较于Mutual Information(MI)互信息而言有更高的准确度巴拉巴拉的,按作者的话说总之比其他的方式好。 原文参照: Detecting Novel As…

MIC相关基础知识

一、mic及声音的指标: (1)声音的分贝(dB) 分贝 Decibel 分贝(dB)是一个对数单位(logarithmic unit), 它和很多常见的单位如“米”,“秒”或者“千克”等物理单…

MIC - 最大信息系数

MIC 文章目录 MIC前言MIC介绍MIC库Python实例MIC缺陷参考文章 前言 皮尔逊相关系数即我们通常说的(线性)相关系数,是用来反映两个变量线性相关程度的统计量,变化范围为-1到1。 系数的值为1意味着X和Y可以很好的由直线方程来进行描述,所有的…

MIC:最大信息系数

目录 1. 概念 1.1 MIC 1.2 互信息 2. MIC的优点 3. 算法原理 3.1 MIC公式原理 3.2 MIC计算步骤 (1)计算最大互信息值 (2)对最大的互信息值进行归一化 (3)选择不同尺度下互信息的最大值作为MIC值…

MIC 的指标解读

MIC 的指标解读 1.Sensitivity 灵敏度 麦克风是支持以声压信号为输入,最后转换为电信号的传感器。sensitivity是microphone 能够capture的最小声压信号,声压信号的单位为dBSPL.sensitivity 是ratio ,是模拟输出电压或者数字输出值对于输入的…

MIC一般参数指标

SNR>68dB&#xff0c; 灵敏度>-34dB&#xff0c;频响范围&#xff1a;/-3dB &#xff08;300Hz-3kHz&#xff09;&#xff1b;失真度&#xff1a;<3% 麦克风的灵敏度高好还是低&#xff0c;要根据你使用的条件来选择。如果声源离麦克风较远&#xff0c;需用灵敏度高的…

Maximal Information Coefficient (MIC)最大互信息系数

MIC 我在论文使用MIC来衡量两个基因之间的关联程度&#xff0c;线性或非线性关系&#xff0c;相较于Mutual Information&#xff08;MI&#xff09;互信息而言有更高的准确度巴拉巴拉的&#xff0c;按作者的话说总之比其他的方式好。 原文参照&#xff1a; Detecting Novel A…