聚类案例分析全流程汇总

article/2025/11/11 10:00:31

一、案例说明

1.案例背景

研究调查10名运动员的3项测试数据,其中三项分别是:肩宽/髋宽×100、胸厚/胸围×100、腿长/身长×100。其中编号为4、6、8、9的4名运动员分别是蛙、自由、仰、蝶泳四种姿势的佼佼者。预计姿势按姿势分为蝶泳、仰泳、蛙泳、自由泳4类(为简化问题仅以10名运动员的3项测试数据为例)。

2.分析目的

本案例对游泳运动员调查的数据进行聚类,以便分项,预计姿势按姿势分为蝶泳、仰泳、蛙泳、自由泳4类。 [案例来源于:SPSS统计分析(第5版)卢纹岱,朱红兵主编,案例有一些变动 具体请看分析。]

二、数据处理

1.数据检查

在数据分析之前,首先需要进行数据查看,包括数据中是否有异常值,无效样本等。如果有异常值则需要进行处理,然后再进行分析。另外如果数据中有无效样本也需要进行处理后再进行分析。无效样本会干扰分析研究,扭曲数据结论等,因而在分析前先对无效样本进行标识显示尤其必要。异常值的鉴别与处理一般分为三个部分,其中分别是判断标准,鉴别方法以及异常值的处理,以下从这三个方面进行说明。

异常值的判断标准如下:

检验数据是否有异常值的方法:

异常值处理方法:

此案例对于异常值参照的标准为大于±3个标准差

使用箱线图进行查看发现没有异常值。

除了对异常值的处理,还需要对于无效样本进行检查:如果数据来源为问卷,则很可能出现无效样本,因为填写问卷的样本是否真实填写无从判定;如果数据库下载或者使用二手数据等,也可能出现大量缺失数据等无效样本。以下从无效样本场景、SPSSAU设置标准、处理三方面进行说明。

1.常见场景

2.设置标准

3.无效样本的处理

设置好无效样本后,默认会新生成一个标题,用来标识那些样本是有效,那些是无效,在分析的时候直接进行筛选下就好。

本次案例分析将以相同数字大于70%为标准进行检验,结果显示没有无效样本。

2.标题处理

将变量肩宽/髋宽×100设为x1、变量胸厚/胸围×100设为x2、变量腿长/身长×100设为x3。

三、操作

首先对初始计划进行分析得到模型如下:

分析结果来源于SPSSAU

从上表可以看出:最终聚类得到4类群体, 4类人群分布较为均匀,整体说明聚类效果较好。如果分析人员没有预设聚类个数也可以利用该方法对数据类别进行初步判断,若该案例数据聚类个数为3,结果如下:

从结果来看,若分为三类,数据中第三个类别占比较多,不如分为4类的结果均匀,综合结果对比聚类个数选择4,但是就此案例说明,若研究者的预设聚类个数为3,也是可以接受的。

总结来讲,不需要对模型进行调整,重复进行案例模型的构建。

聚类分析往往是一个主观判断的过程,需要根据分析结果及个人专业知识判断,聚为几类更合适。这里结合SPSSAU输出结果,提供几个判断聚类效果的方法:

接下来将对此一一说明。

四、结果输出及分析

首先要查看数据分布是否均匀,一般来说,每个类别的样本比例应分布均匀,如果出现某一类占比过大或过小,可以考虑重新设置聚类类别个数。

1.聚类基本情况

分析结果来源于SPSSAU

使用聚类分析对样本进行分类,使用Kmeans聚类分析方法,从上表可以看出:最终聚类得到4类群体,此4类群体的占比分别是20.00%, 20.00%, 30.00%, 30.00%。整体来看, 4类人群分布较为均匀,整体说明聚类效果较好。

2.方差分析

分析结果来源于SPSSAU

聚类类别与聚类分析项进行交叉分析,如果呈现出显著性(p<0.05),意味着聚类得到的不同类别样本,在相同指标上有明显的差异。这说明参与聚类分析的3个变量能够很好的区分类别,类间差异足够大,其中p值越小说明明类别之间的差异越大,表中显示自变量x2的类别之间差异性最大。

对不同类别进行均值比较除了可以查看方差分析还可以进行查看聚类项重要性对比。

分析结果来源于SPSSAU

如果某个指标重要性较低,考虑移出该指标。从上述结果看,所有研究项均呈现出显著性,说明不同类别之间的特征有明显的区别,聚类的效果较好。

3.聚类效果的图示化

可通过散点图直观展示聚类效果,使用任意两个聚类指标进行散点图绘制(可视化模块里面的散点图),并且在‘颜色区分(定类)[可选]框中放入‘聚类类别’项,以查看不同类别时,两两指标的散点效果。

分析结果来源于SPSSAU

从图中可以发现各个类别之间有明显的区别,聚类的效果较好。其中发现第一个类别x1、x3都比较大,建议研究时可以更加关注。

4.聚类类别实际意义

根据编号为4、6、8、9的4名运动员分别是蛙、自由、仰、蝶泳四种姿势的佼佼者。

可以将第一类命名为蛙泳,第二类命名为自由泳,第三类命名为仰泳,第四类命名为蝶泳。

研究者也可以观察折线图趋势进行命名。参考如下:

分析结果来源于SPSSAU

五、其它

1.聚类中心

整体说明聚类效果较好

分析结果来源于SPSSAU

上表为经过迭代后类中心的变化,数据是经过标准化后的,至于数据是否需要标准化,聚类算法是根据距离进行判断类别,因此一般需要在聚类之前进行标准化处理,SPSSAU默认是选中进行标准化处理。数据标准化之后,数据的相对大小意义还在(比如数字越大GDP越高),但是实际意义消失了。

2.SSE

对于聚类中心的SSE指标说明如下:

在进行Kmeans聚类分析时SPSSAU默认输出误差平方和SSE值,该值可用于测量各点与中心点的距离情况,理论上是希望越小越好,而且如果同样的数据,聚类类别越多则SSE值会越小(但聚类类别过多则不便于分析)。SSE指标可用于辅助判断聚类类别个数,建议在不同聚类类别数量情况下记录下SSE值,然后分析SSE值的减少幅度情况,如果发现比如从3个聚类到4个类别时SSE值减少幅度明显很大,那么此时选择4个聚类类别较好。比如该案例若聚类数为3,此时SSE值为7.451,但是当聚类数为4时此时SSE值为2.844,发现SSE减少幅度较大。所以可以看出选择4个聚类类别较好。

六、总结

对案例数据首先进行数据的检查,没有发现缺失值与异常值,针对聚类的基本情况分析,发现数据可以进行聚类,以及对聚类类别的选择,最后对于输出的结果进行分析,得到结论。如果有定类数据,或使用分层聚类方法分析,分析思路也是如此。


更多干货请登录SPSSAU官方网站查看。


http://chatgpt.dhexx.cn/article/igCibANg.shtml

相关文章

同你分享1个完整的聚类分析案例

这篇文章从对聚类的感性认识到聚类算法的实现&#xff1a; k个初始中心点的选择&#xff0c;中心点的迭代&#xff0c;直到算法收敛得到聚类结果。 但有几个问题需要回答&#xff1a; 如何判断数据是否适合聚类&#xff1f;k类是如何确定的&#xff1f;遇到数据集小的时候&…

Python 实操案例:一文详解10种聚类算法

聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术&#xff0c;用于发现数据中的有趣模式&#xff0c;例如基于其行为的客户群。有许多聚类算法可供选择&#xff0c;对于所有情况&#xff0c;没有单一的最佳聚类算法。相反&#xff0c;最好探索一系列聚类算法以及每种…

SPSS中系统聚类操作案例

示例&#xff1a; 一啤酒生产商想了解当前啤酒市场情况&#xff0c;并判断时下最受欢迎的啤酒品牌&#xff0c;收集了多种啤酒在售价、热量、钠含量、酒精含量等方面的数据。运用系统聚类法对各项数据进行分析&#xff0c;并给出&#xff1a; &#xff08;1&#xff09;所有样…

一篇文章透彻解读聚类分析及案例实操

1 聚类分析介绍 1.1 基本概念 聚类就是一种寻找数据之间一种内在结构的技术。聚类把全体数据实例组织成一些相似组&#xff0c;而这些相似组被称作聚类。处于相同聚类中的数据实例彼此相同&#xff0c;处于不同聚类中的实例彼此不同。聚类技术通常又被称为无监督学习&#xff…

暗光增强论文“Kindling the Darkness: A Practical Low-light Image Enhancer”

暗光增强论文“Kindling the Darkness:A Practical Low-light Image Enhancer” 还是retinex-based的思想&#xff0c;将图像调节分解为2个部分&#xff1a;一个部分是负责光照的调节&#xff0c;一份部分是负责退化的去除。在这样的方法下&#xff0c;最原始的空间是被分成两…

NFC学习笔记(2)——NFC基础知识

书接上文 在等待PN532板子到货的同时&#xff0c;需要了解一些NFC的知识。 NFC卡分为5类 * I 型卡&#xff08;不支持防冲突&#xff09; * II 型卡 Mifare Ultralight卡 * III 型卡 Sony FeliCa卡 * IV 型卡 NXP DESFire卡 * V 型卡 NXP Mifare Classic卡 平时最常使…

Low-Light Image Enhancement with Normalizing Flow

基础理论知识点&#xff1a; 李宏毅flow-model: 参考博客、flow-model视频 Flow-model参考博客 3 Methodology 在本节中&#xff0c;首先介绍以往基于像素级重建损失的微光增强方法的局限性。然后&#xff0c;介绍了图2中我们的框架的总体范式。最后&#xff0c;我们提出的框架…

Ultra Edit使用技巧

Ultra Edit使用技巧 1.去掉横向滚动条(自动换行) 在菜单栏选择“高级->配置”&#xff0c;进入如下界面。然后在“编辑器”选项的“自动换行”界面里&#xff0c;选择“默认为每个文件启用自动换行”。 2.列编辑模式 按“ALT c”组合键可进入列编辑模式&#xff0c;可以按…

HighlightingSystem插件使用(边缘发光)

插件链接: http://pan.baidu.com/s/1dFwkaTr 密码: nw2c 导入Unity里面可能会报错&#xff0c;不过没关系&#xff0c;直接注释掉就可以了&#xff0c;我用的是Unity5.1的版本 可以看到如下文件夹&#xff0c;HighlighingSystemDemo是一些实例&#xff0c;可以看一下&#xff0…

HighlightPlus物体自发光

只介绍常用的几个参数与使用&#xff1a;

Deep Retinex Decomposition for Low-Light Enhancement

参考 Deep Retinex Decomposition for Low-Light Enhancement - 云社区 - 腾讯云 目录 摘要 1、简介 2、弱光增强的视黄素网 2.1、数据驱动的图像分解 2.2、支持结构平滑损失 2.3、多尺度照明调整 2.4、反射上的去噪 3、数据集 3.1、真实场景中捕获的数据集 3.2、从…

霓虹灯(light)

【题目描述】 小石家旁边有一个大型商场&#xff0c;晚上会有不停变换的霓虹灯&#xff0c;各种各样的颜色非 常漂亮&#xff0c;小石每天晚上都喜欢站在窗口看不停变换的霓虹灯。这个商场的霓虹灯 在每个时刻都是同一种颜色。小石每天晚上会在商场开始亮灯时就站在窗口观看。 …

ultralight搭建/运行/打包

0、ultralight的github更新 截至2023年3月17日&#xff0c;ultralight的github仓库最近的提交时间为2022年12月10日。 1、ultralight ultralight是使用C或C语言和HTML/JS构建界面&#xff0c;基于WebKit的HTML渲染器。 支持系统&#xff1a;Windows(7、x64)、macOS(Sierra或…

rpi4 实现 qiuqiu - Ultralight-SimplePose

qiuqiu Ultralight-SimplePose&#xff1a;https://github.com/dog-qiuqiu/Ultralight-SimplePose &#x1f4bb;​ OS Linux raspberrypi 5.10.60-v8 #1448 SMP PREEMPT Sat Aug 21 10:48:18 BST 2021 aarch64 GNU/Linux⚡️ 安装 protobuf sudo apt-get install autoconf au…

射频识别技术漫谈(16)——Mifare UltraLight

【转自】http://blog.sina.com.cn/s/blog_9ed067ad01010t8k.html Mifare UltraLight又称为MF0&#xff0c;从UltraLight(超轻的)这个名字就可以看出来&#xff0c;它是一个低成本、小容量的卡片。低成本&#xff0c;是指它是目前市场中价格最低的遵守ISO14443A协议的芯片之一&a…

low-light系列:Lightening Network for Low-light Image Enhancement

前言 文章下载链接在后面 这是一篇顶刊TIP2020的文章&#xff0c;重点在于&#xff1a; 文章将暗光增强任务视为一个求residual&#xff08;残差&#xff09;的任务LBP模块的提出&#xff0c;借用了SR&#xff08;超分辨率&#xff09;任务中的back-projection思想可调亮度的…

Low-light images enhancement系列:EnlightenGAN:Deep Light Enhancement without Paired Supervision

众所周知&#xff0c;在暗光增强任务中&#xff0c;要获取到适合的成对的暗光/正常曝光训练图像是非常困难的&#xff0c;甚至是不存在唯一的定义良好的正常曝光ground truth图片。如果用正常曝光的图像去合成带噪点的暗光图像作为训练集&#xff0c;很可能导致最终应用在真实世…

RC522读取NFC Forum Type2 Tag流程及代码解析——Mifare Ultralight卡片读取(采用PHY6212平台,可移植)

RC522作为一款NFC读写芯片&#xff0c;性价比还是很高的&#xff0c;因为在项目里需要采用NFC OOB配对&#xff0c;所以需要读取配对方模拟的NFC卡片信息 读取对象采用NRF52832&#xff0c;使用其NFC功能模拟type2 tag&#xff0c;但是读取方式和M1卡不一样&#xff0c;踩了不…

Lighting - 光的亮度衰减

一些零零碎碎的笔记归档&#xff1b; 光的亮度衰减&#xff1a; 在物理正确的情况下&#xff0c;光的衰减遵循反比例平方衰减&#xff1b;因为光在传播过程中如下图&#xff1a; 随着距离的增加&#xff0c;单位平面上所接受的光照强度与距离的计算关系&#xff1b; 公式可简单…

PFLD+GhostNet+MobileOne=PFLD_GhostOne,重参数化让PFLD重生,精度提升超过4%,速度提升超过55%,代码已开源

在两年前&#xff0c;我曾经分享过利用GhostNet对PFLD进行优化的文章——《人脸关键点检测算法PFLD的优化实战记录》&#xff0c;那里面介绍了经过各种奇技淫巧&#xff0c;GhostNet确实能够提升PFLD的速度和精度&#xff0c;暂且称呼这个方法为PFLD-GhostNet&#xff0c;而且分…