深度聚类:将深度表示学习和聚类联合优化

article/2025/9/20 16:43:06

参考文献:

简介

经典聚类即数据通过各种表示学习技术以矢量化形式表示为特征。随着数据变得越来越复杂和复杂,浅层(传统)聚类方法已经无法处理高维数据类型。结合深度学习优势的一种直接方法是首先学习深度表示,然后再将其输入浅层聚类方法。但是这有两个缺点:i)表示不是直接学习聚类,这限制了聚类性能; ii) 聚类依赖于复杂而不是线性的实例之间的关系; iii)聚类和表示学习相互依赖,应该相互增强。

为了解决改问题,深度聚类的概念被提出,即联合优化表示学习和聚类。

目的

聚类的主要目的是将实例分组,使相似的样本属于同一个簇,而不相似的样本属于不同的簇。 样本集群提供了数据实例的全局表征,这可以显着有利于对整个数据集的进一步分析,例如异常检测 ,域适应 ,社区检测和判别表示学习等。

 

 

Image Representation Learning.

通过将现代表示学习技术(例如视觉变换器)引入深度聚类而取得了进展。 作为最流行的方向之一,图像数据的无监督表示学习将在深度聚类中发挥核心作用并影响其他数据类型。

Text Representation Learning

文本表示学习的早期尝试利用了基于统计的方法,如 TF-IDF 、Word2Vec和 Skip-Gram。 后来,一些工作专注于文本表示学习的主题建模和语义距离,以及更多关于无监督场景。 最近,像 BERT 和 GPT-3这样的预训练语言模型逐渐在文本表示学习领域占据主导地位。 

Video Representation Learning

视频表示学习是一项具有挑战性的任务,它将时空学习、多模型学习和自然语言处理(带视频摘要和字幕)结合到一个地方。 早期的方法利用 LSTM Autoencoder 、3D-ResNets 和 3D-U-Net作为特征提取器。 

Graph Representation Learning

经典的图表示学习旨在学习节点的低维表示,以便在嵌入空间中保留节点之间的接近度。此外,图级信息在蛋白质分类等任务中也具有巨大潜力,这在图级表示学习中引起了越来越多的关注

上面提到的数据类型特定表示学习可以是用于特征提取的朴素主干或端到端无监督表示学习,这是深度学习中最活跃的研究方向。 随着更多类型的数据被收集,深度聚类会随着数据类型特定的表示学习技术而增长。

深度学习方法

多级深度聚类(Multistage Deep Clustering)

多级深度聚类是指两个模块分别优化和顺序连接的方法。 一种直接的方法是使用深度无监督表示学习技术首先学习每个数据实例的表示,然后将学习的表示输入经典聚类模型以获得最终的聚类结果。 这种数据处理和聚类的分离有助于研究人员进行聚类分析。 更具体地说,所有现有的聚类算法都可以服务于任何研究场景。

迭代深度聚类(Iterative Deep Clustering)

迭代深度聚类的主要目的是良好的表示可以使聚类受益,而聚类结果反向为表示学习提供监督。大多数现有的迭代深度聚类管道在两个步骤之间迭代更新

1)在给定当前表示的情况下计算聚类结果;

2)在给定当前聚类结果的情况下更新表示。 迭代深度聚类方法受益于表示学习和聚类之间的相互促进。 然而,它们也受到迭代过程中的错误传播的影响。不准确的聚类结果可能导致混乱的表示,其中性能受到自标记有效性的限制。 此外,这反过来会影响聚类结果,尤其是在训练的早期阶段。 因此,现有的迭代聚类方法严重依赖于表示模块的预训练。

生成深度聚类(Generative Deep Clustering)

深度生成聚类模型可以在完成聚类的同时生成样本

生成模型能够捕获、表示和重新创建数据点,因此越来越受到学术界和工业界的关注。 他们将对潜在集群结构做出假设,然后通过估计数据密度来推断集群分配。 最具代表性的模型是高斯混合模型,它假设数据点是从高斯混合生成的

存在的弱点:

1)训练生成模型通常涉及蒙特卡罗采样,可能导致训练不稳定和计算复杂度高;

2)主流的生成模型基于VAE和GAN,不可避免地继承了它们的缺点。 基于 VAE 的模型通常需要对数据分布进行先验假设,这在实际案例中可能不成立; 尽管基于 GAN 的算法更加灵活多样,但它们通常会出现模式崩溃和收敛缓慢的问题,尤其是对于具有多个集群的数据。

同时深度聚类(Simultaneous Deep Clustering)

表示学习模块和聚类模块以端到端的方式同时进行优化。 尽管大多数迭代深度聚类方法也以单一目标优化两个模块,但这两个模块以显式迭代方式进行优化,不能同时更新。尽管大多数迭代深度聚类方法也以单一目标优化两个模块,但这两个模块以显式迭代方式进行优化,不能同时更新。

学习的表示是面向聚类的,聚类是在判别空间上进行的。 但是,它可能会在表示学习模块和聚类模块之间对优化焦点产生不希望的偏见,目前只能通过手动设置平衡参数来减轻这种偏见。 此外,该模型很容易陷入退化的解决方案,其中所有实例都分配到一个集群中

常用数据集

4个方向的常用数据集

未来的方向

Initialization of Deep Clustering Module

Overlapping Deep Clustering

Degenerate Solution VS Unbalanced Data

Boosting Representation with Deep Clustering

Deep Clustering Explanation

Transfer Learning with Deep Clustering

Clustering with Anomalies

Efficient Training VS Global Modeling

 


http://chatgpt.dhexx.cn/article/AJ1Locti.shtml

相关文章

什么是表示学习(representation learning)表征学习 表达学习

机器学习算法的成功与否不仅仅取决于算法本身,也取决于数据的表示。数据的不同表示可能会导致有效信息的隐藏或是曝露,这也决定了算法是不是能直截了当地解决问题。表征学习的目的是对复杂的原始数据化繁为简,把原始数据的无效信息剔除&#…

知识表示学习模型

最近清华的THUNLP整理了Pre-trained Languge Model (PLM)相关的工作:PLMpapers,非常全面,想要了解最新NLP发展的同学不要错过。本来这篇是打算写一写Knowledge Graph BERT系列工作的,但是最近有在做知识图谱的一些东西所以就先整…

网络表示学习(network represention learning)

https://www.toutiao.com/a6679280803920216589/ 2019-04-13 15:40:48 1.传统:基于图的表示(又称为基于符号的表示) 如左图G (V,E),用不同的符号命名不同的节点,用二维数组&#x…

图表示学习

文章目录 1.导言1.1 为什么要研究图(graph)1.2 针对图结构的机器学习任务1.3 特征表示的难点1.4 特征表示的解决思路1.5 线性化思路1.6 图神经网络1.7 讨论:何谓Embedding1.8 总结 2.图结构表示学习2.1 deepwalk(深度游走算法)2.2 node2vec 3…

表示学习(特征学习)

文章目录 表示学习特征工程与表示学习深度学习的表示学习注:深度学习不等于多层神经网络什么时候用「手工提取」什么时候用「表示学习」? 关于特征表示学习的算法 参考资料 表示学习 表示学习的基本思路,是找到对于原始数据更好的表达&#…

表示学习与深度学习

1、表示学习 首先给出表示学习的定义: 为了提高机器学习系统的准确率,我们就需要将输入信息转换为有效的特征,或者更一般性称为表示(Representation)。如果有一种算法可以自动地学习出有效的特征,并提高最…

表示学习(Representation Learning)

一、前言 2013年,Bengio等人发表了关于表示学习的综述。最近拜读了一下,要读懂这篇论文还有很多文献需要阅读。组会上正好报了这篇,所以在此做一个总结。 鉴于大家都想要我的汇报PPT,那我就分享给大家,希望能对大家有所…

使用 Altium Designer 绘制PCB完整设计流程记录(2021.05.04更新)

前言 做了大半年的毕业设计,陆陆续续也是画了几个板子,有些东西感觉要趁现在记录下来,方便以后某天还想再画板子时查看。 修改日志 时间修改内容2021.05.04初稿完成 文章目录 前言修改日志一、关于AD版本二、原理图库和封装库三、绘制原理…

PCB设计流程步骤中的注意事项

PCB中文名称为印制电路板,又称印刷线路板,几乎所有电子设备中都会应用到PCB。这种由贵金属制成的绿色电路板连接了设备的所有电气组件,并使其能够正常运行。PCB原理图是一个计划,是一个蓝图。它说明的并不是组件将专门放置在何处&…

使用Cadence绘制PCB流程(个人小结)

之前使用过cadence画过几块板子,一直没有做过整理。每次画图遇到问题时,都查阅操作方法。现在整理一下cadence使用经历,将遇到问题写出来,避免重复犯错。 注:写该篇文章时,感谢于争博士的教学视频和《Cade…

AD原理图 PCB设计步骤

版权声明:本文为CSDN博主「唐传林」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/Tang_Chuanlin/article/details/79803575 本文总结一下AD画PCB的步骤,…

AD中画PCB详细流程

1.新建工程 先在电脑新建一个文件夹作为工程总文件夹,里面再新建三个子文件夹分别为BOM(Bill Of Materials)(物料清单)、PCB、SCH(Schematic)(原理图)如下图1.1.1 (注意:记住该路径,该工程所有…

干货|PCB电路板的组成、设计、工艺、流程及元器摆放和布线原则

大家对PCB电路板电路这个词很熟,有的了解PCB电路板的组成,有的了解PCB电路板的设计步骤,有的了解PCB电路板的制作工艺......但是对整个PCB电路板的组成、设计、工艺、流程及元器件摆放和布线原则,及后期的注意事项没有一个综合的了…

pcb板制作流程图解

转载链接:http://www.360doc.com/content/16/0529/15/33072037_563261798.shtml 我们来看一下印刷电路板是如何制作的,以四层为例。 四层PCB板制作过程: 1.化学清洗—【Chemical Clean】 为得到良好质量的蚀刻图形,就要确保抗蚀层…

PCB简单绘制一般步骤

1、使用CAD或CAXA,布局线路板图纸 2、生成DWG/DXF格式文件,比如A.dwg 3、使用Altium Designer,文件——新建——PCB,新建一块板子 4、导入A.dwg,文件——导入——DXF/DWG——选择A.dwg导入 ——作为元素导入——比例为mm——绘…

PCB 基础~典型的PCB设计流程,典型的PCB制造流程

典型的PCB设计流程 典型的PCB制造流程 • 从客户手中拿到Gerber, Drill以及其它PCB相关文件 • 准备PCB基片和薄片 – 铜箔的底片会被粘合在基材上 • 内层图像蚀刻 – 抗腐蚀的化学药水会涂在需要保留的铜箔上(例如走线和过孔) – 其他药水…

用AD画PCB流程介绍

大家好,这里主要介绍pcb(印刷电路板)绘制的一个流程,不管你是刚毕业还是想转行或者是在校大学生,不妨了解一下pcb工程师的基本工作内容。希望你看完之后有所收获。废话不多说,开整! 1、首先我们从硬件工程师那里拿到一份没有错误…

PCBA工艺流程

公号阅读更加精彩:《PCBA工艺流程》 还记得刚毕业的时候被抓去工厂拧螺丝的情景,其实主要就是体验一把产品组装的过程。 可能你会说:“我需要的是如何画原理图,分析电路,以及Layout”;但其实产品设计与生…

Altium Designer绘制PCB电路板一般流程

很多初学电子的学生或想从事硬件方面的人都想要了解和学习一下如何绘制PCB板,如下分享下如何绘制PCB板,一般绘制整个画PCB的流程一般是先画好原理图,再由原理图生成网络表,再导入PCB,再到绘制PCB图。 一、选择电路与绘…

AD20中PCB设计流程

目录 •同步电路原理图数据 •定义板框及原点设置 •层的相关设置 •常用规则设置 •视图配置 •PCB布局 •PCB布线 1.General参数设置 PCB的常规参数设置通过General(常规设置)标签页来实现 2. Display参数设置 3. Board Insight Display参数设置 4. Bo…