k-Means——经典聚类算法实验(Matlab实现)

article/2025/10/21 18:43:13

聚类算法—k-Means实验

k-平均(k-Means),也被称为k-均值,是一种得到最广泛使用的聚类算法[1]. k-Means算法以k为参数,把n个对象分为k个簇,使得簇内具有较高的相似度。

实验目的

  1. 了解常用聚类算法及其优缺点;
  2. 掌握k-Means聚类算法对数据进行聚类分析的基本原理和划分方法;
  3. 利用k-Means聚类算法对数据集进行聚类实验;
  4. 熟悉使用Matlab进行算法的实现。

聚类算法的主要思想

主要思想

给定一个有n个对象的数据集,划分聚类技术将构造数据k个划分,每一个划分就代表一个簇, k ≤ n k\le n kn. 每一个簇至少包含一个对象,每一个对象属于且仅属于一个簇。

对于给定的k,算法首先给出一个初始的划分方法,以后通过反复迭代的方法改变划分,使得每一次改进之后的划分较前一次更好。

评价函数

更好的标准是:同一簇中的对象越接近越好,而不同簇中的对象越远越好,目标是最小化所有对象与其簇中心之间相异度之和。

各个簇应该是紧凑的,各个簇间的距离应当尽可能远。因此,用聚类C的类内差异(Within cluster variation) w ( C ) w(C) w(C) 和类间差异(Between cluster variation) b ( C ) b(C) b(C) 分别衡量上述两要求。

w ( C ) = ∑ i = 1 k w ( C i ) = ∑ i = 1 k ∑ x ∈ C i d ( x , x i ‾ ) 2 w(C)=\sum_{i=1}^{k}w(C_i)=\sum_{i=1}^{k}\sum_{x\in C_i}d(x,\overline{x_i})^2 w(C)=i=1kw(Ci)=i=1kxCid(x,xi)2

b ( C ) = ∑ 1 ≤ j ≤ i ≤ k d ( x j ‾ , x i ‾ ) 2 b(C)=\sum_{1\le j\le i\le k}d(\overline{x_j},\overline{x_i})^2 b(C)=1jikd(xj,xi)2

其中, x i ‾ \overline{x_i} xi 是类 C i C_i Ci 的聚类中心,d 为距离函数。聚类C的总体质量可以被定义为 b ( C ) w ( C ) \frac{b(C)}{w(C)} w(C)b(C).

k-Means算法原理

k-Means算法用类内均值作为聚类中心、用欧氏距离定义d,并使上述 w ( C ) w(C) w(C) 最小化。

优化目标

arg ⁡ max ⁡ C ∑ i = 1 k ∑ x ∈ C i ∥ x − x i ‾ ∥ 2 \mathop{\arg\max}\limits_{C} \sum_{i=1}^k \sum_{x\in C_i} \parallel x-\overline{x_i}\parallel ^2 Cargmaxi=1kxCixxi2

表示选取合适的C使得所有对象的平方误差总和最小,其中x是空间中的点, x i ‾ \overline{x_i} xi 是簇 C i C_i Ci 的平均值,这个优化目标可以保证生成的结果簇尽可能的紧凑和独立。

算法描述

首先随机选择k个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到上述平方误差总和收敛。

k-Means算法分析

优点

  • 对处理大数据集,该算法是相对可伸缩和高效率的,时间复杂度约为 O ( k ⋅ n ⋅ t ) \mathcal{O} (k\cdot n\cdot t) O(knt),t是迭代次数。k-Means算法经常以局部最优结束;
  • 算法尝试找出使平方误差最小的k个划分,当结果簇是密集的,而簇与簇之间区别明显时,k-Means的效果较好。

缺点

  • 若涉及离散属性,其平均值无法定义,无法使用k-Means聚类;
  • 必须事先给出参数k,k的选取对聚类质量和效果影响很大;
  • k-Means算法不适合发现非凸面形状的簇,或者大小差别很大的簇。而且对于“噪声”和孤立点数据是敏感的,少量的该类数据对平均值产生较大影响。

算法改进

k-模算法:将k-Means的应用扩大到离散数据。k-原型可以对离散与数值属性两种混合的数据进行聚类,在k-原型中定义了一个对数值与离散属性都计算的相异性度量标准。[2]

k-中心点算法:解决了k-Means算法对孤立点敏感的问题,不采用簇中的平均值作为参照点,而使用簇中位置最靠近中心的对象作为参照点。基本思路是反复用非代表对象来替代代表对象,以改进聚类的质量。PAM(Partition Around Medoid)是最早提出的k-中心点算法之一。[3]

代码

clc;clear;
k = 2;
data = [1 1; 2 1; 1 2; 2 2; 4 3; 5 3; 4 4; 5 4;];
eps = 0.1;
epochs = 100;
[n,~] = size(data);
% initialize the last column of data as classes
data(:,end+1) = 0;
% assign initial value for means
rng('default') % For reproducibility
clusters = data(randperm(n,k),1:end-1);
% initialize E
E = inf; 
% save means steps
cnt = 0; % counter
cls_steps = [];
while epochs>0% to save means stepscnt = cnt + 1;cT = clusters';cls_steps(cnt,:) = cT(:)';% assign each xj to the cluster which has the closet meanD = pdist2(data(:,1:end-1),clusters);[~,I] = min(D');data(:,end) = I';% calculate new means for each classesclusters = grpstats(data(:,1:end-1),data(:,end));% calculate criterion function ElastE = E;E = .0;for i=1:nE = E + pdist2(data(i,1:end-1),clusters(data(i,end),:));endif lastE-E<=epsbreakendepochs = epochs - 1;
end

Matlab2021a

结果验证

结果数据

在data.csv数据集上运行上述代码,得到结果如下:

Clusters: 聚类中心

x1x2
1.51.5
4.53.5

E = 5.65685424949238

cls_steps: 聚类中心移动记录

c1x1c1x2c2x1c2x2
4353
2.333333332.1666666753.5
1.51.54.53.5

结果图像

kMeans

其中,蓝色/黄色实心点表示不同分类下的数据点,空心橙色/紫色圆环表示k-Means聚类中心的变化情况。

附录(data.csv)

IndexAttr1Attr2
111
221
312
422
543
653
744
854

参考

  1. 毛国君、段立娟, 《数据挖掘原理与算法》, 清华大学出版社, 2016-01-01, ISBN:9787302415817
  2. Ramasubramanian P , Kumar S P , Anandam D . Experimental work on Data Clustering using Enhanced Random KMode Algorithm. 2020.
  3. Bhat A . K-Medoids Clustering Using Partitioning Around Medoids for Performing Face Recognition. 2014.

http://chatgpt.dhexx.cn/article/YWxEqYSD.shtml

相关文章

MATLAB K-means聚类的介绍与使用

K-means算法是硬聚类算法 &#xff0c;是典型的基于原型的目标函数 聚类方法的代表&#xff0c;它是数据点到原型的某种距离作为优化的目标函数&#xff0c;利用函数求极值的方法得到迭代运算的调整规则。K-means算法以偶是距离 作为相似度测度&#xff0c;它是求对应某一初…

MatLab Kmeans聚类

机器学习以及人工智能的学习需要扎实的数学功底才能走的更远&#xff0c;爬的更高&#xff0c;所以打好数学基础是关键&#xff0c;但无论工作学习都没有充足的时间去拿着书本一个字一个字的去学习了&#xff0c;这里我建议大家找几个比较靠谱入门的机器学习或者人工智能学习平…

聚类分析(二)k-means及matlab程序

1.介绍 k-means是一种常见的基于划分的聚类算法。划分方法的基本思想是&#xff1a;给定一个有N个元组或者记录的数据集&#xff0c;将数据集依据样本之间的距离进行迭代分裂&#xff0c;划分为K个簇&#xff0c;其中每个簇至少包含一条实验数据。 2.k-means原理分析 2.1工作原…

数据挖掘实验(七)Matlab实现聚类算法【clusterdata / kmeans】

本文代码均已在 MATLAB R2019b 测试通过&#xff0c;如有错误&#xff0c;欢迎指正。 另外&#xff0c;这次实验都是调用Matlab现成的函数&#xff0c;没什么技术含量。 &#xff08;一&#xff09;聚类分析的原理 聚类是将数据分类到不同的类或者簇这样的一个过程&#xff…

K-means聚类 —— matlab

目录 1.简介 2.算法原理 3.实例分析 3.1 读取数据 3.2 原理推导K均值过程 3.3 自带kmeans函数求解过程 完整代码 1.简介 聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程&#xff0c;聚类就是一种发现这种内在结构的技术&#xff0c;聚类技术经常被称为…

聚类分析的Matlab 程序—系统聚类(附有案例分析)

聚类分析的Matlab 程序—系统聚类 (1)计算数据集每对元素之间的距离,对应函数为pdistw. 调用格式&#xff1a;Ypdist(X),Ypdist(X,’metric’), Ypdist(X,’distfun’),Ypdist(X,’minkowski’,p) 说明&#xff1a;X是m*n的矩阵&#xff0c;metric是计算距离的方法选项&…

如何运用MATLAB实现K-MEANS聚类分析

由于自己最近在学习聚类分析&#xff0c;也算是一个入门&#xff0c;相当于将自己这段时间的学习成果进行一个总结&#xff0c;分享给更多打算学习聚类分析或者需要用到聚类分析的同学们~ 在了解K-MEANS聚类分析之前&#xff0c;我们首先明确聚类的含义&#xff0c;聚类是将数…

Matlab实现Kmeans聚类算法

1.Kmeans聚类算法简介 kmeans聚类算法是一种迭代求解的聚类分析算法。其实现步骤如下&#xff1a; (1) 随机选取K个对象作为初始的聚类中心 (2) 计算每个对象与各个种子聚类中心之间的距离&#xff0c;把每个对象分配给距离它最近的聚类中心。 (3) 聚类中心以及分配给它们的对象…

k-means算法实例(聚类分析)matlab实现

例子如下&#xff1a; 假设数据挖掘的任务是将如下的8个点&#xff08;用&#xff08;x&#xff0c;y&#xff09;代表位置&#xff09;聚类为3个簇。 距离是欧氏距离。假设初始我们选择&#xff0c;和分别为每个簇的中心&#xff0c;用k-均值算法给出&#xff1a; a)在第一轮…

MATLAB层次聚类分析

实验题目 给出六个民族的出生死亡率&#xff0c;和他们的平均寿命&#xff0c;如下表所示 出生死亡率&#xff08;%&#xff09;平均寿命15.8070.5927.4467.1438.1165.48410.2158.8859.5159.8869.8160.47 MATLAB代码 %聚类分析 %步骤 %1.样本标准化 %2.计算各个样本之间的距…

matlab之聚类分析

文章目录 1.原理&#xff1a;2.数据&#xff1a;3.效果图&#xff1a;4.分类结果&#xff1a;5.分类代码&#xff1a; 1.原理&#xff1a; 聚类分析是根据在数据中发现的描述对象及其关系的信息&#xff0c;将数据对象分组。目的是&#xff0c;组内的对象相互之间是相似的&…

Matlab聚类分析(Kmeans)

提示&#xff1a;本文为记录学习聚类分析的一个过程&#xff0c;仅供参考&#xff0c;有不足之处还望提出 目录 前言一、原始数据二、数据处理与结果输出1.标准化与提取2.可视化3.簇数判别4.最终输出 总结 前言 本次样本中的片段数据涉及到多个故障原因&#xff0c;目的在于通…

Python语音信号处理

个人博客&#xff1a;http://www.chenjianqu.com/ 原文链接&#xff1a;http://www.chenjianqu.com/show-44.html 语言信息是多种信息的混合载体 &#xff0c;其中包括内容信息、说话人信息和情感信息。 本文介绍了一些语音的基本知识&#xff0c;和使用Python进行处理。 时域…

语音信号处理1 ----- 基础知识

语音信号处理1 ----- 基础知识 1. 语音信号处理的目的&#xff1a;2. 语音发音和感知系统2.1 语音发音系统2.2 语音感知系统&#xff08;听觉系统&#xff09;2.2.1 听觉系统2.2.2 听觉特性 2.3 语音信号生成的数学模型 3. 语音基本概念及参数4. 语音信号数字化处理参考 1. 语音…

语音信号处理入门入籍和课程推荐

欢迎关注我的公众号&#xff0c;微信搜一搜【音频信号处理那些事儿】获取更多信息。 由于看网上关于语音信号处理的入门书籍和课程推荐的比较少&#xff0c;同时相关的领域人员也比较少&#xff0c;所以建了这个公众号&#xff0c;欢迎各位同仁指正交流&#xff0c;谢谢。 本…

前端语音信号处理

1、语音活动检测 语音活动检测&#xff08;Voice Activity Detection&#xff0c; VAD&#xff09;用于检测出语音信号的起始位置&#xff0c;分离出语音段和非语音&#xff08;静音或噪声&#xff09;段。VAD算法大致分为三类&#xff1a;基于阈值的VAD、基于分类器的VAD和基于…

语音信号处理及特征提取

1.信号处理基础 模拟信号->数字信号转化 步骤&#xff1a;采样和量化 奈奎斯特定律 &#xff1a;采样频率大于信号中最大频率的二倍 即在原始信号的一个周期中&#xff0c;至少要采样两个点&#xff0c;才能有效杜绝频率混叠问题。 信号进行离散傅里叶变换的条件&#x…

MATLAB语音信号处理系统GUI

基于MATLAB的语音信号处理 【摘 要】 Matlab语音信号处理是指利用matlab软件对音频信号进行读取&#xff0c;并对音频信号进行采样分析及离散傅里叶变换&#xff0c;以方便对其在频域上进行调制滤波等相关的操作。本次实验在提取音频信号后会对该信号使用在MATLAB软件中设计的…

《语音信号处理》 语音识别章节 读书笔记

两本书&#xff0c;《语音信号处理》赵力编和《语音信号处理》韩纪庆编。强烈推荐韩纪庆版本&#xff0c;知识点很全面&#xff0c;可以作为语音识别的入门中文书籍&#xff0c;章节很也短&#xff0c;很快就入门了。 P34 HMM是一个双内嵌式随机过程&#xff0c;由两个随机过程…

基于MATLAB的语音信号处理系统的设计

目 录 摘 要 I Abstract II 1 绪论 1 2 语音信号处理系统设计方案 2 2.1MATLAB的说明 2 2.2系统框架及实现流程图 2 2.2.1系统框架&#xff1a; 2 2.2.2系统流程图&#xff1a; 3 2.3语音信号处理相关原理知识 3 2.3.1语音信号的录入与打开 3 2.3.2采样位数和采样频率 3 2.3.3…