【机器学习】K-Means算法优化

article/2025/9/23 10:29:18

K-Means算法优化

  • 学习目标
  • 1. Canopy算法配合初始聚类
    • 1.1 Canopy算法配合初始聚类实现流程
    • 1.2 Canopy算法的优缺点
  • 2. K-means++
  • 3. 二分k-means
  • 4. k-medoids(k-中心聚类算法)
  • 5. Kernel k-means
  • 6. ISODATA
  • 7. Mini Batch K-Means
  • 8. 小结

学习目标

  • 知道K-means算法的优缺点
  • 知道Canopy、K-means++、二分K-means、K-medoids的优化原理
  • 了解Kernel K-means、ISODATA、Mini-batch K-means的优化原理

k-means算法小结

优点:

  1. 原理简单(靠近中心点),实现容易

​ 2. 聚类效果中上(依赖K的选择)

​ 3. 空间复杂度O(N),时间复杂度O(IKN)

N为样本点个数,K为中心点个数,I为迭代次数

缺点:

  1. 对离群点,噪声敏感 (中心点易偏移)

  2. 很难发现大小差别很大的簇及进行增量计算

  3. 结果不一定是全局最优,只能保证局部最优(与K的个数及初值选取有关)

1. Canopy算法配合初始聚类

1.1 Canopy算法配合初始聚类实现流程

在这里插入图片描述

1.2 Canopy算法的优缺点

优点:

  1. Kmeans对噪声抗干扰较弱,通过Canopy对比,将较小的NumPoint的Cluster直接去掉有利于抗干扰。

  2. Canopy选择出来的每个Canopy的centerPoint作为K会更精确。

  3. 只是针对每个Canopy的内做Kmeans聚类,减少相似计算的数量。

缺点:

  1. 算法中 T1、T2的确定问题 ,依旧可能落入局部最优解

2. K-means++

在这里插入图片描述
其中:

在这里插入图片描述
为方便后面表示,把其记为 A

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Kmeans++目的,让选择的质心尽可能的分散

如下图中,如果第一个质心选择在圆心,那么最优可能选择到的下一个点在P(A)这个区域(根据颜色进行划分)

在这里插入图片描述

3. 二分k-means

实现流程:

  • 1.所有点作为一个簇。

  • 2.将该簇一分为二。

  • 3.选择能最大限度降低聚类代价函数(也就是误差平方和)的簇划分为两个簇。

  • 4.以此进行下去,直到簇的数目等于用户给定的数目k为止。

在这里插入图片描述

隐含的一个原则

因为聚类误差平方和能够衡量聚类性能,该值越小表示数据点越接近于他们的质心,聚类效果就越好。所以需要对误差平方和最大的簇进行再一次划分,因为误差平方和越大,表示该簇聚类效果越不好,越有可能是多个被当成了一个,所以我们首先需要对这个进行划分。

二分K均值算法可以加速K-means算法的执行速度,因为它的相似度计算少了并且不受初始化问题的影响,因为这里不存在随机点的选取,且每一步都保证了误差最小

4. k-medoids(k-中心聚类算法)

K-medoidsK-means是有区别的,不一样的地方在于中心点的选取

  • K-means中,将中心点取为当前cluster中所有数据点的平均值,对异常点很敏感!

  • K-medoids中,将从当前cluster 中选取到其他所有(当前cluster中的)点的距离之和最小的点作为中心点。

在这里插入图片描述

算法流程:

( 1 )总体n个样本点中任意选取k个点作为medoids

( 2 )按照与medoids最近的原则,将剩余的n-k个点分配到当前最佳的medoids代表的类中

( 3 )对于第i个类中除对应medoids点外的所有其他点,按顺序计算当其为新的medoids时,代价函数的值,遍历所有可能,选取代价函数最小时对应的点作为新的medoids

( 4 )重复2-3的过程,直到所有的medoids点不再发生变化或已达到设定的最大迭代次数

( 5 )产出最终确定的k个类

k-medoids对噪声鲁棒性好。

:当一个cluster样本点只有少数几个,如(1,1)(1,2)(2,1)(1000,1000)。其中(1000,1000)是噪声。如果按照k-means质心大致会处在(1,1)(1000,1000)中间,这显然不是我们想要的。这时k-medoids就可以避免这种情况,他会在(1,1)(1,2)(2,1)(1000,1000)中选出一个样本点使cluster的绝对误差最小,计算可知一定会在前三个点中选取。

k-medoids只能对小样本起作用,样本大,速度就太慢了,当样本多的时候,少数几个噪音对k-means的质心影响也没有想象中的那么重,所以k-means的应用明显比k-medoids多。

5. Kernel k-means

kernel k-means实际上,就是将每个样本进行一个投射到高维空间的处理,然后再将处理后的数据使用普通的k-means算法思想进行聚类。
在这里插入图片描述

6. ISODATA

类别数目随着聚类过程而变化;

对类别数会进行合并,分裂,

合并”:(当聚类结果某一类中样本数太少,或两个类间的距离太近时)

分裂”:(当聚类结果中某一类的类内方差太大,将该类进行分裂)

7. Mini Batch K-Means

适合大数据的聚类算法

大数据量是什么量级?通常当样本量大于1万做聚类时,就需要考虑选用Mini Batch K-Means算法。

Mini Batch KMeans使用了Mini Batch(分批处理)的方法对数据点之间的距离进行计算。

Mini Batch计算过程中不必使用所有的数据样本,而是从不同类别的样本中抽取一部分样本来代表各自类型进行计算。由于计算样本量少,所以会相应的减少运行时间,但另一方面抽样也必然会带来准确度的下降。

该算法的迭代步骤有两步:

(1)从数据集中随机抽取一些数据形成小批量,把他们分配给最近的质心

(2)更新质心

Kmeans相比,数据的更新在每一个小的样本集上。对于每一个小批量,通过计算平均值得到更新质心,并把小批量里的数据分配给该质心,随着迭代次数的增加,这些质心的变化是逐渐减小的,直到质心稳定或者达到指定的迭代次数,停止计算。

8. 小结

  • k-means算法优缺点总结

    • 优点:
      • ​ 1.原理简单(靠近中心点),实现容易
      • ​ 2.聚类效果中上(依赖K的选择)
      • ​ 3.空间复杂度O(N),时间复杂度O(IKN)
    • 缺点:
      • 1.对离群点,噪声敏感 (中心点易偏移)
      • ​2.很难发现大小差别很大的簇及进行增量计算
      • ​3.结果不一定是全局最优,只能保证局部最优(与K的个数及初值选取有关)
  • 优化方法

在这里插入图片描述
加油!

感谢!

努力!


http://chatgpt.dhexx.cn/article/X2RYkXgS.shtml

相关文章

鲸鱼算法优化PID参数优化附matlab代码

第一 章 鲸鱼优化算法 算法介绍参考文献:Seyedali Mirjalili,Andrew Lewis. The Whale Optimization Algorithm[J]. Advances in Engineering Software,2016,95. 第二章 鲸鱼优化PID参数 首先我们需要建立一个直流电机PID控制系统,WOA算法通过将系统上的误差作为…

麻雀优化算法 优化XGBoost的参数 python代码

文章目录 麻雀优化算法麻雀优化算法的改进加入Ten混沌序列 XGBoost原理麻雀优化算法优化XGBoost参数范围部分代码画图 优化结果评价结果和运行时间适应度曲线训练集结果测试集结果 麻雀优化算法 麻雀优化算法是2020年提出来的,该算法利用麻雀的角色分工和协作机制高…

KNN算法优化

在之前所写的KNN算法python实现里,KNN对k的选取很敏感,因为它给所有的近邻分配相同权重,无论距离测试样本有多远。为了降低该敏感性,可以使用加权KNN,给更近的近邻分配更大的权重,给较远的样本权重相应减少…

【常见的优化算法介绍】

常见的优化算法介绍 1. 批量梯度下降算法(batch gradient descent BGD) 每次迭代都需要把所有样本都送入,这样的好处是每次迭代都顾及了全部的样本,做的是全局最优化,但是有可能达到局部最优。 2. 随机梯度下降算法(…

常用优化算法介绍

作者:Walker 在机器学习的世界中,通常我们会发现有很多问题并没有最优的解,或是要计算出最优的解要花费很大的计算量,面对这类问题一般的做法是利用迭代的思想尽可能的逼近问题的最优解。我们把解决此类优化问题的方法叫做优化算法,优化算法本质上是一种数学方法,常见的…

十大经典算法及其优化

本文转自:https://blog.csdn.net/qq_40803710/article/details/80642703 算法概述 0.1 算法分类 十种常见排序算法可以分为两大类: 非线性时间比较类排序:通过比较来决定元素间的相对次序,由于其时间复杂度不能突破O(nlogn)&#…

虚拟机里CDlinux 里的水滴 minidwep-gtk

假如什么都没有使用虚拟机打开这个系统,就搞这个 会显示 下方 表示 网卡 必须是3070 或者 8187的 网卡,自带的网卡是不支持的

CDLINUX——minidwep-gtk

1.下载CDLinux http://fastsoft.onlinedown.net/down/minidwep.zip 解压后是 2.使用虚拟机安装iso 注:版本选择“其他linux 2.6x内核” 安装参考:http://www.downza.cn/soft/12715.html 3.使用 使用参考:http://soft.onlinedown.net/s…

CDliux--minidwep 无线密码渗透测试

CDliux–minidwep 无线密码破解渗透测试 一. 工具准备 1.首先下载CDLinux 用虚拟机安装,教程有很多 CDLINUX:cdlinux 2.支持cdlinux 的无线网卡选择RT 3070/或者 RT8187 某宝上有很多 二.渗透测试 1.cdlinux 安装好后链接无线网卡 2.打开minidwep-gtk …

IPWorks S/MIME Delphi Edition

IPWorks S/MIME是一套用于电子邮件加密和文档安全的综合组件。IPWorks S/MIME使用公钥密码标准(PKCS)实现加密和解密的S/MIME标准。 IPWorks S/MIME包括通用的S/MIME组件以及支持S/MIME的IPWorks POP3、IMAP、SMTP、FileMailer和HTMLMailer组件版本。还…

MinIO客户端mc使用

官网: 英文网址(最好查看英文网址):https://min.io/中文网址(没有及时更新,容易被坑):http://www.minio.org.cn/ 使用的 minio 版本是:RELEASE.2021-11-* 一、MinIO 客…

MinIO的介绍以及简单的使用

什么是MinIO MinIO是在GUN Affero通用公共许可证 v3.0 下发布的高性能对象存储.他与AmazonS3云存储服务API兼容.使用MinIO为机器学习,分析和应用程序数据工作负载构建高性能基础架构. MinIO是一个高兴能的对象存储,什么是对象存储(Object Storage Service),对象存储是支持海量用…

【LWIP】stm32用CubeMX(6.4版)配置LwIP+Ping+TCPclient+TCPserver发送信息到PC(操作部分)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言零、更新(2022.08.07)一、实验平台二、手把手全程配置步骤1.配置电脑环境2.配置cubeMX3.配置MDK(Keil5)4.配置TC…

minicap介绍

从WEB 端批量移动设备管理控制工具 STF 的环境搭建和运行文章了解到STF这个工具,然后试用了一下。最近在做一个测试工具,发现Android原生的截图工具截图非常缓慢,然后想起了stf工具中截图非常快,甚至连执行monkey的动作都能在web端…

​ MinIO​使用

引言:为什么要使用minio MinIO是对象存储服务,它基于Apache License 开源协议,兼容Amazon S3云存储接口。适合存储非结构化数据,如图片,音频,视频,日志等。对象文件最大可以达到5TB。类似于腾讯的oss或者阿…

MiniApp Dev

小程序开发 MiniApp Dev 2_WinkeyTseng_YongTai的博客-CSDN博客 MiniApp Dev 3_WinkeyTseng_YongTai的博客-CSDN博客 MiniApp Dev 4_spencer_tseng的博客-CSDN博客

MinIO的简单实用(一)

一、什么是MinIO MinIO是在GNU Affero 通用公共许可证v3.0下发布的高性能对象存储。它与AmazonS3云存储服务API兼容。使用MinIO为机器学习、分析和应用程序工作负载构建高性能基础架构。 MinIO是高性能对象存储,什么是对象存储(Object Storage Service&…

取代奶瓶Minidwep-gtk破解WPA 全攻略

原文地址为: 取代奶瓶Minidwep-gtk破解WPA 全攻略 取代奶瓶Minidwep-gtk 破 WPA 全攻略 目录 1、 CDlinux 下使用 minidwepgtk 获取握手包并使用自带的字典破解 2、 自带的字典破解不出密码时使用 U 盘外挂字典继续暴力破解密码 3、 将握手包拷贝到 Windows 系统下…

Minidwep-gtk字典 破 WPA

取代奶瓶Minidwep-gtk 破 WPA 全攻略 目录 1、 CDlinux 下使用 minidwepgtk 获取握手包并使用自带的字典破解 2、 自带的字典破解不出密码时使用 U 盘外挂字典继续暴力破解密码 3、 将握手包拷贝到 Windows 系统下使用 ewsa 工具高速破解密码 4、破解 WPA 加密“握手包”字典的…

无线密码破解----minidwep-gtk的PIN破解方法

原文地址为: 无线密码破解----minidwep-gtk的PIN破解方法 使用虚拟机对minidwep-gtk进行PIN破解 用CDLINUX支持8187和3070_30211版.iso系统PJpin码 1.用虚拟机的好处是方便,可以一边破解,一边上网做其他事情。 虚拟机的安装非常简单&#xf…