active learning主动学习

article/2025/8/29 10:02:44

active learning 是半监督式的机器学习的一种,这种机器学习算法能够交互式地查询用户或者信息源,从而对于一个新的数据样例得到可人的输出。在统计学文献中,它有时也被称为最佳实验设计。

在这样的一种情形下:无标签的数据量很大,而且手工打标签很昂贵。在这样的一种局面下,学习算法就可以主动向用户或者教员查询标签。这种迭代监督学习被称为主动学习。 由于学习者选择了这些例子,因此学习概念的例子数量往往比普通监督学习所需的例数少得多。 采用这种方法,算法会被无用的例子淹没。 最近的发展致力于多标签主动学习,混合主动学习和单通道(在线)情境下的主动学习,结合机器学习领域的概念(如冲突 和无知)与在线机器学习领域的适应性增量学习策略。

1、定义

设T是考虑中的所有数据的总集合。 例如,在蛋白质工程问题中,T将包括已知具有特定有趣活性的所有蛋白质以及人们可能想要测试该活性的所有其他蛋白质。
在每次迭代中,T,T被分解为三个子集
标签已知的数据点。
标签未知的数据点。
TU的一个子集,我选择标记。
目前大部分主动学习研究都涉及到为选择数据点的最佳方法。

2、查询策略

用于确定哪些数据点应该被标记的算法可以被组织成许多不同的类别【1】:

  • 不确定性采样:标记当前样例,从而使得当前模型一定程度上和正确的输出是保持一致的。
  • 委员会投票选择算法:使用当前的有标签数据集在几个模型中进行训练,然后对无标签数据的输出进行投票,标定那些委员会们最不同意的样本。
  • 预期模型更改:标定那些最可能改变当前模型的样本。
  • 预期错误减少:标定那些最可能降低模型的泛化误差。
  • 减小方差:标定那些可能减小输出方差的样本,方差是影响错误的指标之一。
  • 平衡探索与利用:在数据空间中,标定样本是探索和利用两者之间两难选择。该策略通过将主动学习问题建模为上下文匪徒问题来管理这种折衷。例如,Bouneffouf等人[8]提出了一种名为主动汤姆森采样(ATS)的序列算法,该算法在每一轮中对池分配一个采样分布,从该分布中采样一个点,并向oracle查询该采样点标签。
  • 主动学习的指数梯度探索:【9】在本文中,作者提出了一种顺序算法 - 指数梯度(EG)-active,可以通过最优随机探索来改进任何主动学习算法。
  • 从不同子空间或分区查询:当底层模型是树林时,叶节点可能代表原始特征空间的(重叠)分区。这提供了从非重叠或最小重叠分区中选择实例进行标记的可能性。

已经研究了各种各样的算法,这些算法属于这些类别。[1] [4]

3、最小边界超平面

一些主动学习算法主要是建立在支持向量机的基础之上的,都是利用支持向量机的结构来决定给数据打标签。这样的算法通常都计算每一个无标签数据集的margin,W,也都视这个margin平面从数据集到分离超平面之间的n维距离。最小化边界超平面方法认为最小W的数据就是SVM最不确定的数据,因此应该放置在Tci中以标记。如最大边际超平面,其他W最大的数据。权衡方法同城会选择最小和最大的W之间的混合。

4、相关会议

  • 2016 "Workshop Active Learning: Applications, Foundations and Emerging Trends" at iKNOW, Graz, Austria[11]
  • 2018 "Interactive Adaptive Learning" Workshop at ECML PKDD, Dublin, Ireland[12]

参考文献:

【0】https://en.wikipedia.org/wiki/Active_learning_(machine_learning)




http://chatgpt.dhexx.cn/article/ggOdKUXu.shtml

相关文章

深度主动学习综述2020

A Survey of Deep Active Learning 中文版仅作参考,以正式的pdf版为主。 https://arxiv.org/pdf/2009.00236.pdf 西北大学等最新《深度主动学习》全面综述论文,30页pdf abstract 主动学习试图通过标记最少量的样本使得模型的性能收益最大化。而深度学习…

每日一学-- 主动学习(active learning)

1. 在机器学习中,有监督学习、半监督学习、无监督学习。 在使用监督学习时,模型在标注的数据中学习信息,而存在的问题就是有大量的数据需要标注,非常费时费力。so主动学习为我们提供了方法,通过一定的算法找出最有用的…

一张图展示被动学习与主动学习的效率差距

一张图展示被动学习与主动学习的效率差距 起因一张图 起因 由于工作原因。最近的一段时间,又回到了大量的学习实践当中。之前的主观感受是,通过文字语音视频结合的多渠道信息获取方式学到的东西,记忆会比自己只是看文字,读文字&a…

深度学习 主动学习(Active Learning)概述、策略和不确定性度量

文章目录 主动学习概念策略基于数据流的主动学习方法基于数据池的主动学习方法基于查询的主动学习方法 不确定性度量 参考 主动学习 概念 主动学习是指对需要标记的数据进行优先排序的过程,这样可以确定哪些数据对训练监督模型产生最大的影响。主动学习不是一次为…

主动学习-综述

主动学习是机器学习(更普遍的说是人工智能)的一个子领域,在统计学领域也叫查询学习、最优实验设计”(Active learning (sometimes called “query learning” or “optimal experimental design” in the statistics literature) is a subfie…

深度学习--主动学习

主动学习简介 主动学习是指对需要标记的数据进行优先排序的过程,这样可以确定哪些数据对训练监督模型产生最大的影响。主动学习是一种学习算法可以交互式查询用户(teacher 或 oracle),用真实标签标注新数据点的策略。主动学习的过程也被称为优化实验设计…

机器学习/深度学习几种典型学习范式|主动学习

机器学习/深度学习几种典型学习范式|主动学习 主动学习(Active Learning,AL):Introduction主动学习的例子 应用场景成员查询合成流式选择抽样基于池的主动学习 查询策略框架不确定性抽样Uncertainty Sampling基于委员会的查询Query-By-Commit…

机器学习中的主动学习(Active Learning)

最近在做主动学习相关的东西,随着深入了解和学习对于某些东西有一些模糊,先将所见所感整理如下,如有不正确之处希望大佬能够指正: 1.主动学习 1.1关键问题 对于监督学习模型,足够多的已标注样例是获得高精度分类器的…

主动学习数据标注

active learning与passive(supervised) learning最大的不同是其不需要大量的专家标注样本训练模型。 主动学习是利用少量标注样本,然后由模型(Learner)主动选择hard sample返回给用户或专家(Oracle)打标签,…

浅谈主动学习(Active Learning)

1背景概述 在机器学习领域有很多学习模式,比方说监督学习、半监督学习、强化学习、无监督学习等。平时大家接触比较多的一般都是监督学习,在监督学习里面,比方说要做个人和鱼的图像分类模型,假设有200张图片,那就需要把…

深度主动学习综述(Deep Active Learning)

原文 Abstract 主动学习试图通过标记最少量的样本使得模型的性能收益最大化。而深度学习则对数据比较贪婪,需要大量的数据供给来优化海量的参数,从而使得模型学会如何提取高质量的特征。近年来,由于互联网技术的快速发展,使得我…

AL-实体抽取主动学习调研

实体抽取主动学习调研 文章目录 实体抽取主动学习调研资料前言相关文献阅读一、主动学习与自学习的中文命名实体识别算法流程图 二、DEEP ACTIVE LEARNING FOR NAMED ENTITYRECOGNITION三、Visual Active Learning for Labeling: A Case for Soundscape四、Interactive visual …

《异常检测——从经典算法到深度学习》15 通过无监督和主动学习进行实用的白盒异常检测

《异常检测——从经典算法到深度学习》 0 概论1 基于隔离森林的异常检测算法 2 基于LOF的异常检测算法3 基于One-Class SVM的异常检测算法4 基于高斯概率密度异常检测算法5 Opprentice——异常检测经典算法最终篇6 基于重构概率的 VAE 异常检测7 基于条件VAE异常检测8 Donut: …

主动学习简单教程及代码示例

本文是这篇文章的(翻译)简化版。 本文代码地址 已经不止一次有人说代码地址打不开,但是每次我都打得开。。这里放个阿里云的地址吧Active_Learning_Tutorial.ipynb。需要的去阿里云下载文件就行了。 建议直接看代码地址(代码地…

主动学习研究现状

主动学习研究现状 一. 传统查询策略(Query Strategy)二. 在图像分类的应用三. 在目标检测的研究3.1.《Localization-Aware Active Learning for Object Detection 》(ACCV, 2018)3.2. 《Active Learning for Deep Object Detection via Probabilistic Mo…

什么是主动学习?

机器学习算法特别需要数据,需要成千上万的例子才能做出明智的决定。为我们的算法提供高质量的训练数据是一项昂贵的任务。主动学习是一种优化构建有效机器学习系统所需人力的策略。 主动学习定义 主动学习是一种机器学习训练策略,它使算法能够主动识别…

Deep Active Learning(深度主动学习)

在深度学习时代,以监督学习为首的各项模型都取得了非常好的效果,但是这往往需要非常多的数据量来支撑。所以主动学习这一领域主要的目的就是为了让目标模型达到性能的前提下,尽可能的减少标准成本。 Active Learning(主动学习&a…

主动学习入门

文章目录 1.介绍1.1 监督学习、半监督学习、非监督学习1.2 主动学习1.2.1 主动学习介绍1.2.2 主动学习与半监督学习异同1.2.3 主动学习流程 2. 基本思想2.1 图示2.2 策略 3. 算法3.1 基于流、基于池3.2 类别3.3 算法(这里只介绍基本的)3.3.1 基于不确定性3.3.2 多样性(一般与不…

主动学习(active learning)

背景 在现实应用场景中,训练一个有效的深度模型依赖大量已标注样本,而准确标注大规模数据往往耗时耗力且代价高昂。为降低模型对数据的依赖,相继提出无监督学习,半监督学习以及弱监督学习等领域的学习方法。在这些方法中&#xf…

主动学习(Active Learning,AL)综述

目录 1. 基本概念2. 基于不确定性的主动学习方法3.基于最近邻和支持向量的分类器的方法3.1 NNClassifier3.2 RBF network Gradient Penalty 4 基于特征空间覆盖的方法5 基于对抗学习的方法5.1 VAAL5.1.1 核心思想5.1.2 网络结构5.1.3 主动学习策略5.1.4 模型特点 5.2 SRAAL5.3…