semi-supervised classification

article/2025/8/27 6:14:37

半监督学习任务主要分为半监督聚类、半监督分类、半监督回归等问题,我们主要针对半监督分类问题。

半监督学习的假设

  • 基于低密度假设
          模型的决策边界不应该将该密度区域划分开,而应该处在低密度区域内。
  • 基于平滑化假设
          输入空间中,距离相近的两个样本应该有相同的标签。
    平滑化与低密度假设
                                                平滑化与低密度假设
  • 基于流形假设
          data points on the same low-dimensional manifold should have the same label.
          流形假设是指具有相似性质的示例,其通常处于较小的局部领域,因此标记也十分相似,这种假设反映了决策函数的局部平滑性。
    流形假设                                               流形假设
  • 基于聚类假设
          位于同一个簇中的样本往往具有相似的标签,而处于不同簇中的样本其标签往往不同。

主要研究的方法(self-labeled)

self-labeled方法的分类:

self-labeled的分类图
                                               self-labeled的分类图
self-teaching与multi-teaching的比较:
      self-teaching即自己教的知识再用来提升自己,由于自己先前的认知有错误,很可能会恶化模型。
      multi-teaching即两个不同的view来相互监督学习,从两个不同的view相互借鉴自己不会的,两者也会发生冲突。Tri-training应运而生。
single-view与multi-view的比较:
      single-view即将数据集从单独的一个view去构建模型,而mutil-view是从数据集的多个冗余且相互独立的view针对同一个任务去构建模型。在真实的应用场景中,一个数据集有冗余而独立的属性集是非常少见的。
      single-view的经典方法有self-training、Tri-training。
      multi-view的经典方法有co-training。
single-learning与multi-learning的比较:
      single-learning是指无论是集成学习还是单分类模型,其中所使用的模型均为同一个模型。如贝叶斯、决策树、SVM等基分类器。
      multi-learning是指无论是集成学习还是单分类模型,其中所使用的模型是多个基学习器模型。
single-classifier与multi-classifier的比较:
      single-classifier是指单个分类器。
      multi-classifier是指多个分类器。可能为多个同一模型也可能为多个模型的组合。
在self-labeled方法中,每一次迭代过程中扩充有标签样本集主要有三种方式。

  • Incremental
          A strictly incremental approach begins with an enlarged labeled set EL = L and adds, step-by-step, the most confident instances of U if they fulfill certain criteria.
          每一次都添加符合条件的未标记样本,规定每一次添加未标记样本的大小等。
  • batch
          Another way to generate an EL set is in batch mode. This involves deciding whether each instance meets the addition criteria before adding any of them to the EL. Then, all those that do meet the criteria are added at once.
          每一次挑选出符合条件的所有未标记样本集一次性添加到标记样本集中。
  • amending
          Amending models appeared as a solution to the main drawback of the strictly incremental approach. In this approach, the algorithm starts with EL = L and iteratively can add or remove any instance that meets the specific criterion. This mechanism allows rectifications to already performed operations, and its main advantageis to make the achievementof a good accuracy-suited EL set of instances easy.
          主要是克服了Incremental的缺点,反复地选择最置信的样本添加到标记集合中。
    下面介绍一种amending方法保证添加到标记集合中的样本不受到noise数据的干扰
          文章题目:On the characterization of noise filters for self-training semi-supervised in nearest neighbor classification
          本文提出一个noise filters based on nearest neighbor,在每一次模型对未标记数据集进行更新时,noise filters被用来检测该未标记数据集是否满足条件可被添加到扩充的有标记集合中去,防止noise数据影响下一次的模型构建。
    noise filters model framework
                                                    noise filters model framework
          本文还对多种filters进行了比较,其中包括local filter和global filter。
    Number of detected noisy instances
                                                   Number of detected noisy instances
         该文章对self-labeled的方法没有太大的改变,只是在扩充有标记样本集的时候更加准确,减少了noise数据对模型的干扰。
         下面再介绍一篇2020年新发表的文章,题目为:An effective framework based on local cores for self-labeled semi-supervised classification
    该文章的主要贡献如下:
  • propose a LC-SSC framework which solves the problem of lacking adequate initial labeled data in self-labeled methods.The pro-posed framework is able to deal with spherical or non-spherical data. Besides, our framework performs better than the existing one, when initial labeled data are extremely scarce.
  • In LC-SSC framework, we modify the local cores and pro-pose a method
    to find local cores in semi-supervised learning.
    总结该文章的贡献:
         当初始阶段标记样本是极其稀缺的情况下,该方法能够通过发现local core的方法能相对扩充有标记集合,使得self-labeled方法在初始阶段能较好的学习到数据的分布。此外,该方法也可以处理球型或非球型数据集,先前所提出的方法不能够很好的处理非球型数据集,在初始阶段扩充非球型数据集时,错误率很高。
    球型数据
                                                       球型数据
    非球型数据
                                                   非球型数据
    该方法的框架:
    框架图
                                                   方法整体框架图
    该方法的效果:
    球型效果图
                                                   球型效果图
    非球型效果图
                                                   非球型效果图
    总结
  • 目前所提出的方法都是在扩充有标记数据集时的准确率或在模型初始阶段扩充有标记数据集上做文章。但也得到了不错的效果。
  • 未来可能的方向:1、可以发现新的技术来更加准确的扩充有标记样本的集合。2、利用一些基模型的特性加上数据集本身的一些特性在对未标记数据集分类时更加准确。我们最终的目的就是扩充有标记数据集,使得模型能不断从未标记数据集中获得知识。
    以上仅代表我个人的想法,若有错误之处,欢迎指正!!!
    参考文献:
    [1] Jesper E. van Engelen.A survey on semi-supervised learning.
    [2] Isaac Triguero.Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study.
    [3]Isaac Triguero.On the characterization of noise filters for self-training semi-supervised in nearest neighbor classification.
    [4]Junnan Li.An effective framework based on local cores for self-labeled semi-supervised classification.

http://chatgpt.dhexx.cn/article/41sLbGwe.shtml

相关文章

Weakly-Supervised Semantic Segmentation via Sub-category Exploration

Weakly-Supervised Semantic Segmentation via Sub-category Exploration Abstract问题 1.Introduction2. Related Work2.1weakly-supervised semantic segmentation(WSSS)弱监督语义分割的初始预测。---Initial Prediction for WSSS.2.2 、Response Refinement for WSSS&#…

Scribble-Supervised Medical Image Segmentation

Scribble-Supervised Medical Image Segmentation via Dual-Branch Network and Dynamically Mixed Pseudo Labels Supervision 摘要 采用草率的分割标注心脏分割双分枝网络:一个编码器,两个解码器动态结合两个解码器的输出伪标签 方法 模型结构 Lpce…

Learning Affinity from Attention End-to-End Weakly-Supervised Semantic Segmentation withTransformers

Learning Affinity from Attention: End-to-End Weakly-Supervised Semantic Segmentation with Transformers 来源:CVPR 2022,武汉大学、京东、悉尼大学 导言 本文是一篇做自然图像弱监督语义分割的论文,利用图像级的类别标签来实现像素级…

Token Contrast for Weakly-Supervised Semantic Segmentation

文章来源:[CVPR2023] Keywords:Weakly-Supervised Semantic Segmentation(WSSS);over-smoothing; ViT 一、本文提出的问题以及解决方案: 本文解决了over-smoothing问题,该问题其实是在之前的GCN网络中提出…

Self-supervised Learning整理

Self-supervised Learning Pre-train Fine-tune Pre-train Fine-tune算是一种Transfer Learning。 首先,假设按照SimCLR中的设定,将一般的模型分为两部分,分别为Encoder和Projection Head。Encoder结构类似于AutoEncoder中的Encoder部分&a…

Supervised Discrete Hashing

Supervised Discrete Hashing 2015 CVPR 问题: 处理施加在追踪的哈希码上的离散约束,使哈希优化具有挑战性(通常是NP- hard)。 解决: 提出了一个新的监督哈希框架,其中的学习目标是生成最优的二进制哈希码用于线性分类。 通过引…

NetVLAD: CNN architecture for weakly supervised place recognition

背景知识: Vector of Locally Aggregated Descriptors(VLAD)image retrieval. 【CC】是广泛使用的图像提取方式,本文是在在这个提取器上做改进;具体是啥下面有介绍 weakly supervised ranking loss 【CC】本文的另外…

Self-Supervised Difference Detection for Weakly-Supervised Semantic Segmentation

Self-Supervised Difference Detection for Weakly-Supervised Semantic Segmentation 摘要1. Introduction2. Related Works3. Method3.1. Difference detection network3.2. Self-supervised difference detection module 论文地址 这篇论文原文的定义实在是太混乱了&#xf…

Unified Deep Supervised Domain Adaptation and Generalization

论文概述 问题研究背景:supervised domain adaptation(SDA),源域有大量带标签的数据,目标域仅有少量可使用的数据 问题的难点:目标域数据不足导致概率分布在语义上很难对齐和区分。对齐指的是源域图片类别之间的关系与目标域图片…

Self-supervised Video Transformer 阅读

目录 1.介绍2.SVT2.1 SVT结构2.2 自监督训练Motion CorrespondencesCross-View Correspondences 2.3 SVT loss 1.介绍 本文是针对video transformer进行自监督训练,从一个给定的视频中,创建具有不同空间大小和帧率的局部和全局时空视图,自监…

最简单的self-supervised方法

从Kaiming的MoCo和Hinton组Chen Ting的SimCLR开始,自监督学习(SSL)成了计算机视觉的热潮显学。凡是大佬大组(Kaiming, VGG,MMLAB等),近两年都是搞了几个自监督方法的。从一开始的新奇兴奋地看着…

弱监督学习 weakly supervised learning 笔记

周志华 A Brief Introduction to Weakly Supervised Learning 2018 引言 在机器学习领域,学习任务可以划分为监督学习、非监督学习。通常,两者都需要从包含大量训练样本的训练数据集中学习预测模型。 监督学习的训练数据包括,数据对象向量…

Supervised Contrastive Learning浅读

目录 前言 1.方法介绍以及结构 2.思路的实现 2.1自监督对比学习 2.2有监督对比学习 3.结果 前言 本文是根据观看了知名油管up主,对Supervised Contrastive Learning这篇文论文的解读写了一点自己的理解,初次接触,理解甚浅。 在文章中…

supervised——>self-supervised

在CV中,以数据与神经网络为基础,我们通常以supervised的方式与unsupervised的方式来进行网络的训练,这些行为的目的都是为了想要使学到的网络能够具有较好的特征表示能力,以进行如分类、目标检测、语义分割等。这两种方式的主要异…

自监督模型 Self-supervised learning(李宏毅2022

这个红色的怪物叫做ELMo 、最早的self-supervised learning model 作业四的模型也是个transformer,只有0.1个million 最早的是ELMo Cookie Monster等你来凑😼 T5是Google做的,跟车子也没什么关系, 在没有label情况下&#xff…

《论文笔记》—— Self-supervised Image-specific Prototype Exploration for Weakly Supervised Semantic Segment

摘要:基于图像级标签的弱监督语义分割(WSSS)由于标注成本低而备受关注。现有的方法通常依赖于类激活映射(CAM)来度量图像像素和分类器权重之间的相关性。然而,分类器只关注识别区域,而忽略每张图像中的其他有用信息,导致定位图不完…

Semi-supervised Learning(半监督学习)

目录 Introduction Why semi-supervised learning help? Semi-supervised Learning for Generative Model Supervised Generative Model Semi-supervised Generative Model Low-density Separation Assumption Self Training Entropy-based Regularization(基…

supervised contrastive learning 解读

SupCon 定义: Clusters of points belonging to the same class are pulled together in embedding space, while simultaneously pushing apart clusters of samples from different classes. novelties: 属于同一类的归一化后的特征表示靠得越近越好…

第十章 Supervised PCA

supervised pca很简单粗暴,计算 X X X的每一个纬度和 Y Y Y的相关性,取一个阈值,丢掉一些纬度,然后用普通的pca降维。 如何计算两个随机变量的相关性/相似性? 两个随机变量 X , Y X,Y X,Y,有一个函数 ϕ \p…

学习笔记|BERT——自监督学习的典范

1. 自监督学习的概念 在机器学习中,最常见的是监督学习(Supervised learning)。假设模型的输入是 x x x,输出是 y y y,我们如何使模型输出我们期望的 y y y呢?我们得拥有已标注的(label&#x…