【Python机器学习】密度聚类DBSCAN、OPTICS的讲解及实战演示(附源码 超详细)

article/2025/9/30 15:09:51

需要源码和数据集请点赞关注收藏后评论区留言私信~~~

划分聚类、密度聚类和模型聚类是比较有代表性的三种聚类思路

1:划分聚类

划分(Partitioning)聚类是基于距离的,它的基本思想是使簇内的点距离尽量近、簇间的点距离尽量远。k-means算法就属于划分聚类。划分聚类适合凸样本点集合的分簇。

2:密度聚类

密度(Density)聚类是基于所谓的密度进行分簇

密度聚类的思想是当邻域的密度达到指定阈值时,就将邻域内的样本点合并到本簇内,如果本簇内所有样本点的邻域密度都达不到指定阈值,则本簇划分完毕,进行下一个簇的划分。

 DBSCAN

DBSCAN算法将所有样本点分为核心点、边界点和噪声点,如灰色点、白色点和黑色点所示

核心点:在指定大小的邻域内有不少于指定数量的点。指定大小的邻域,一般用邻域半径eps来确定。指定数量用min_samples来表示。

边界点:处于核心点的邻域内的非核心点。

噪声点:邻域内没有核心点的点

DBSCAN算法需要预先指定eps和min_samples两个参数,即它们是超参数。

算法寻找一个簇的过程是先对样本点按顺序排查,如果能找到一个核心点,就从该核心点出发找出所有直接和间接与之相邻的核心点,以及这些核心点的所有边界点,这些核心点和边界点就形成一个簇

接着,从剩下的点中再找另一个簇,直到没有核心点为止。余下的点为噪声点。

效果展示如下 对数据集中三十个坐标应用DBSCAN算法

 

下面三幅图是eps和min_samples取不同值时候的分布情况 

 

代码如下

from sklearn.cluster import DBSCAN
import numpy as np
samples = np.loadtxt("kmeansSamples.txt")
clustering = DBSCAN(eps=5, min_samples=5).fit(samples)
clustering.labels_
>>>array([ 0,  0,  0,  0, -1,  0,  0,  0,  1,  1,  1,  1,  0,  0,  0,  0, -1,        1,  1,  0,  0,  1,  0,  0,  0,  0,  0,  1, -1,  0], dtype=int64)
import matplotlib.pyplot as plt
plt.scatter(samples[:,0],samples[:,1],c=clustering.labels_+1.5,linewidths=np.power(clustering.labels_+1.5, 2))
plt.show()

 DBSCAN算法善于发现任意形状的稠密分布数据集,但它的结果对邻域参数eps和min_samples敏感。不像k-means算法只需要调整一个参数,DBSCAN算法需要对两个参数进行联合调参,复杂度要高的多。

如果能确定聚类的具体评价指标,如簇数、噪声点数限制和SC、DBI、CH和ZQ等,则可以对参数eps和min_samples的合理取值依次运行DBSCAN算法,取最好的评价结果。如果数据量特别大,则可以将参数空间划分为若干网格,每个网格取一个代表值进行聚类。

OPTICS

OPTICS算法的基本思想是在DBSCAN算法的基础上,将每个点离最近的核心点密集区的可达距离都计算出来,然后根据预先指定的距离阈值把每个点分到与密集区对应的簇中,可达距离超过阈值的点是噪声点。点到核心点密集区的可达距离是它到该区内所有核心点的距离的最小值。

引入可达距离可以直观的看到样本点的聚集情况,OPTICS算法巧妙地解决了确定eps参数值的问题

输出结果如下

 

 

 代码如下

from sklearn.cluster import OPTICS, cluster_optics_dbscan
import matplotlib.pyplot as plt
import numpy as np
samples = np.loadtxt("kmeansSamples.txt")
clust = OPTICS(max_eps=np.inf,min_samples=5, cluster_method='dbscan',eps=4.5)
clust.fit(samples)
clust.ordering_
reachability = clust.reachability_[clust.ordering_]
reachability
labels = clust.labels_[clust.ordering_]
labels
plt.plot(list(range(1, 31)),reachability,marker='.',markeredgewidth=3,linestyle='-')
plt.show()
plt.scatter(samples[:,0],samples[:,1],c=clust.labels_+1.5,linewidths=np.power(clust.labels_+1.5, 2))
plt.show()

创作不易 觉得有帮助请点赞关注收藏~~~


http://chatgpt.dhexx.cn/article/mvf3qPcy.shtml

相关文章

OPTICS

OPTICS 就是一种基于密度的聚类算法,可以认为是dbscn的改进,改进之处主要是在不用每次调节eps和minpts都需要重新整个训练。其本质还是dbscan,只是能够在给定eps和minpts后,可以训练一次就可以在minpts值定对的情况下,…

聚类算法初探(六)OPTICS

第一章 引言 第二章 预备知识 第三章 直接聚类法 第四章 K-means 第五章 DBSCAN 第六章 OPTICS 第七章 聚类分析的效果评测 第八章 数据尺度化问题 作者: peghoty 出处: http://blog.csdn.net/itplus/article/details/10089323 欢迎转载/分享, 但请务必声明文章出处. 转…

OPTICS聚类(最清晰解释)

背景 想要理解该算法,你需要先了解: DBSCAN算法 OPTICS(用于识别聚类结构的排序点)算法与 DBSCAN 算法有许多相似之处,可视为 DBSCAN 的泛化,将 eps 要求从单个值放宽到一个范围 DBSCAN 和 OPTICS 之间的主…

机器学习笔记(十一)聚类算法OPTICS原理和实践

OPTICS聚类算法是基于密度的聚类算法,全称是Ordering points to identify the clustering structure。提到基于密度的聚类算法,应该很快会想到前面介绍的DBSCAN聚类算法,事实上,OPTICS也是为了优化DBSCAN而出现的。 一、原理 在…

sklearn聚类之OPTICS算法

文章目录 简介sklearn实现cluster_optics_dbscan 简介 OPTICS算法,全称是Ordering points to identify the clustering structure,是一种基于密度的聚类算法,是DBSCAN算法的一种改进。 众所周知,DBSCAN算法将数据点分为三类&…

聚类算法——OPTICS

网上很多关于OPTICS算法的资料,学习了很多博客之后总感觉不太合自己口味,因此整理了一篇博文供总结和复习,如能有幸帮助到其他人便是荣幸之至,如有错误,不吝指出。阅读此文需要了解“聚类”,“基于密度聚类…

JS获取url参数(简单、实用)

// js获取url传参参数function GetQueryString(name) {var reg new RegExp("(^|&)" name "([^&]*)(&|$)");// Location 对象是 Window 对象的一个部分,可通过 window.location 属性来访问。var r window.location.search.substr(…

js获取url参数值的两种方式详解

有个url如下: http://passport.csdn.net/account/login?fromhttp%3a%2f%2fwrite.blog.csdn.net%2fpostedit 我们该如何获取from这个参数的值呢?在网上搜了下方法很简单,如下,第一种是通过正则,第二种通过切串放进数…

js获取url参数值的方法总结

js获取url参数值的方法总结 1、方式一:通过字符串截取的方式获取参数值;2、方式二:通过正则获取到参数值; 1、方式一:通过字符串截取的方式获取参数值; 1)、函数一:获取URL中的参数名…

Hyperlynx学习心得

1、Altium Designer文件导入Hyperlynx问题 众所周知AD的文件各大友厂商的文件对它都不咋友好~,很多SI、PI文件都不支持,但AD可以输出Hyperlynx文件供其使用、但也会存在一些问题。我遇到问题就是 AD中使用填充的铜皮在Hyperlynx中不识别,直接…

HyperLynx(二十五)电源完整性之直流压降分析(二)

1.后仿真的直流压降 2.批量直流压降分析 3.如何改善电压下降较多的设计 1.后仿真的直流压降 (1)打开HperLynx软件。从目录中打开 C:\PI_Trng\lab2\exer2\ post_dc_drop.hyp,单击“Open”按钮,当打开板子时被问到是否用Man- hattan-style布线连接没有布…

HyperLynx(二十二)DDR(五)DDRx总线时序模型设计

由于DDRx总线对时序的要求非常严格,随着速率的提升,时序的要求会更高。要使用DDRx批处理仿真器,需要创建控制器和DRAM颗粒的时序模型,时序模型文件后缀为“*.V”。 HyperLynx 提供两种方式进行时序模型的创建和编辑: 一种是在语…

HyperLynx(八)带状线串扰的仿真

1. 前面介绍的是微带线的串扰仿真,其实带状线的串扰与微带线的串扰有比较大的不同。主要是在拓扑结构中传输线TL2和TL5为带状线,分布在第三层,微带线与带状线通过过孔连接。带状线的仿真拓扑如图所示: 叠层信息如图所示&#xff…

HyperLynx(二十八)板层噪声分析和SI/PI联合仿真实例

板层噪声分析和SI/PI联合仿真实例 1.前仿真噪声分析 2.后仿真噪声分析 3.设置和运行SI/PI联合仿真 4.执行信号过孔旁路分析 1.前仿真噪声分析 (1)从“开始”菜单中打开HyperLynx:“开始”→“所有程序”一“Mentor Graphics SDD”→“HyperLynx”→“HyperLynx Simulation S…

基于Hyperlynx VX.2.5 的DDR3仿真之一:Verifying That the Software Recognizes Your Design Correctly

这是一篇基于Mentor公司 Hyperlynx VX.2.5 仿真软件针对Xilinx ZYNQ 的ZC702 PCB上DDR3内存布局布线的信号完整性仿真分析。层叠结构设置,关键信号的仿真分析,有助于我们了解基于 Hyperlynx 对 DDR3 进行信号完整性仿真的整个流程。 首先我们从实际出发…

HyperLynx(三十一)高速串行总线仿真(三)

高速串行总线仿真(三) 1.从一个多层板工程中验证串行通道 2.在多层板中设置连接器模型 1.从一个多层板工程中验证串行通道 在本例练习中,将集中研究从芯片到插件形成的串行发射通道,并分析它的性能。 (1)打开 HyperLynx 软件&a…

HyperLynx(五)反射仿真

1.反射仿真 1.学过物理的工程师都知道,光在传输过程中不在介质的表面会发生反射和折射现象,如图所示。同样,对于信号而言,信号在传递的的过程中,遇到阻抗不连续的点(不同的介质或不同的物理结构时),一部分…

HyperLynx(十八)DDR(一)DDR简介和DDR的数据仿真

1.DDR简介 2.DDR仿真概述 3.DDR数据仿真前的数据验证 4.DDR数据仿真具体步骤 1.DDR简介 DDR(双倍速率同步动态随机存储器)是一个内存名称,意思即双倍速率同步动态随机存储器,是内存的其中一种。 DDR 总线是由 SDRAM 发展而来的一…

HyperLynx(三十)高速串行总线仿真(二)

高速串行总线仿真(二) 仿真实例 1.探索多层板中的PCI-E串行通道 2.设置叠层以减小损耗 3.分析通道的不同配置对损耗的影响 4.检测驱动端规范 5.检查接收器规范 6.通过仿真得出整个通道的驱动约束限制 1.探索多层板中的PCI-E串行通道 在本节练习中&am…

HyperLynx(二十七)电源完整性之AC去耦仿真实例(二)

电源完整性之AC去耦仿真实例(二) 1.后仿真的去耦仿真 2.去耦电容在后仿真分析中的作用 3.使用QPL文件为去耦电容分配模型 4.如何设计好电源系统 1.后仿真的去耦仿真 (1)在“开始”菜单中打开HyperLynx:“开始”→“所有程序”→“Mentor Graphics SDD…