Dense Teacher

article/2025/9/14 4:32:34

 “从稀疏到密集”的范式使SSOD的流程复杂化,同时忽略了强大的直接、密集的教师监督 - 最新半监督检测框架

论文地址:https://arxiv.org/pdf/2207.05536.pdf

Mean-Teacher (MT) 方案在半监督目标检测 (SSOD) 中被广泛采用。在MT中,由教师的最终预测(例如,在非极大抑制 (NMS) 后处理之后)提供的稀疏伪标签通过手工制作的标签分配对学生进行密集监督。然而,“从稀疏到密集”的范式使SSOD的流程复杂化,同时忽略了强大的直接、密集的教师监督。

在今天分享中,研究者尝试直接利用教师的密集指导来监督学生的训练,即“密集到密集”范式。具体来说,研究者提出了逆NMS聚类(INC)和秩匹配(RM)来实例化密集监督,而无需广泛使用的传统稀疏伪标签。INC引导学生在NMS中像老师一样将候选框分组到集群中,这是通过学习在老师的NMS程序中显示的分组信息来实现的。在通过INC获得与教师相同的分组方案后,学生通过Rank Matching进一步模仿教师在聚类候选人中的排名分布。

通过提出的INC和RM,将Dense Teacher Guidance集成到半监督目标检测(称为“DTG-SSOD”)中,成功地放弃了稀疏伪标签,并在未标记数据上实现了更多信息学习。在COCO基准测试中,新方法的DTG-SSOD在各种标记比率下实现了最先进的性能。例如,在10%的标注率下,DTG-SSOD将监督基线从26.9提高到35.9mAP,比之前的最佳方法Soft Teacher高19个百分点。

教师监督信号的比较:下图(a)之前的方法对教师进行NMS和分数过滤以获得稀疏的伪标签,通过标签分配进一步转换为对学生的密集监督;下图(b)提出的DTG-SSOD直接采用教师的密集预测作为学生的密集指导。

Task Formulation

SSOD的框架如下图(a)所示。Mean-Teacher方案是以前技术的常见做法,实现了端到端的训练,每次训练迭代后通过EMA从学生构建教师。教师将弱增强(例如翻转和调整大小)图像作为输入以生成伪标签,而学生则应用强增强(例如剪切、几何变换)进行训练。强大且适当的数据增强起着重要作用,它不仅增加了学生任务的难度并缓解了过度自信的问题,而且还使学生能够对各种输入扰动保持不变,从而实现鲁棒的表征学习。

 

Sparse-to-dense Baseline

所有以前的SSOD方法都是基于稀疏到密集的机制,其中生成带有类别标签的稀疏伪框,以充当学生训练的基本事实。它带有基于置信度的阈值,其中仅保留具有高置信度(例如,大于0.9)的伪标签。这使得对未标记数据的前景监督比对标记数据的监督要稀疏得多,因此,类不平衡问题在SSOD中被放大,严重阻碍了检测器的训练。

为了缓解这个问题,研究者借鉴了之前工作的一些优势:Soft Teacher将混合比r设置为1/4,以便在每个训练批次中采样更多未标记数据,这使得未标记数据上的前景样本数接近标记数据;Unbiased Teacher用Focal loss代替了交叉熵损失,从而减少了简单示例的梯度贡献。

这两个改进,即适当的混合比r(1/4)和Focal loss,都被用于稀疏到稠密的基线和研究者的稠密到稠密的DTG 方法。因为老师只提供稀疏伪标签,进一步转化为对学生训练的密集监督,这些方法被称为“稀疏到密集”范式。理论上,新提出的SSOD方法独立于检测框架,可以适用于单级和两级检测器。为了与以前的作品进行公平比较,使用Faster RCNN作为默认检测框架。

作为表显示,在完全标记数据设置下,新提出的DTG-SSOD大大超过了以前的方法,超越至少1.2mAP。按照之前的的做法,研究者还对标记数据应用了弱增强,并获得了40.9mAP的强监督基线。即使基于如此强的基线,DTG-SSOD仍然获得了+4.8mAP的最大改进,达到了45.7mAP,这验证了新方法在标记数据量较大时的有效性。

研究者在30k迭代处采用一个检查点进行分析。稀疏伪标签提供的学生训练标签和研究者密集的教师指导进行了精心比较。(a)sparse-to dense范式和研究者的dense-to-dense范式为学生样本带来了不同的训练标签。(b)老师给高质量的候选者分配更高的分数,从而保留精确的框。 

一些可视化的例子来展示新提出的方法相对于传统的稀疏到密集范式的优势。(a-b)对于相同的学生提案,新的密集到密集范式和传统的稀疏到密集范式将分配不同的标签。很明显,新的密集到密集范式可以分配更精确和合理的训练标签。(c)教师比学生更擅长对集群候选者的关系建模。 

 好啦 完事        whaosoft aiot http://143ai.com  


http://chatgpt.dhexx.cn/article/pKNNZLlr.shtml

相关文章

Sequential模型、Flatten层、Dense层

Sequential模型 顺序模型 核心操作是添加layers,有两种方法 第一种:通过add()添加 model Sequential() model.add(tf.keras.layers.Dense(10,input_shape(1,),activationrelu))#10表示输出数据的维度,后面表示输入的形状,激活函数为relu model.add(tf…

【Python-Keras】keras.layers.Dense层的解析与使用

1 Dense解析 keras.layers.Dense(units, activationNone, use_biasTrue, kernel_initializerglorot_uniform, bias_initializerzeros, kernel_regularizerNone, bias_regularizerNone, activity_regularizerNone, kernel_constraintNone, bias_constraintNone)实现神经网络里的…

tf.layers.dense()的用法

dense :全连接层 相当于添加一个层 函数如下: tf.layers.dense( inputs, units, activationNone, use_biasTrue, kernel_initializerNone, ##卷积核的初始化器 bias_initializertf.zeros_initializer(), ##偏置项的初始化器,默认初始化为…

DenseNet与ResNet

ResNet(深度残差网络) 深度残差网络 DenseNet 采用密集连接机制,即互相连接所有的层,每个层都会与前面所有层在channel维度上连接在一起,实现特征重用,作为下一层的输入。 这样不但缓解了梯度消失的现象…

DenseNet解读

Densely Connected Convolutional Networks ,作者清华姚班的刘壮,获得cvpr 2017 best paper。非常值得阅读。 DenseNet优势: (1)解决了深层网络的梯度消失问题 (2)加强了特征的传播 (3&#xff…

MYSQL实现排名函数RANK,DENSE_RANK和ROW_NUMBER

文章目录 1. 排名分类1.1 区别RANK,DENSE_RANK和ROW_NUMBER1.2 分组排名 2. 准备数据3. 不分组排名3.1 连续排名3.2 并列跳跃排名3.3 并列连续排名 4. 分组排名4.1 分组连续排名4.2 分组并列跳跃排名4.3 分组并列连续排名 在MYSQL的最新版本MYSQL8已经支持了排名函数…

tf.keras.layers.Dense函数

函数原型 tf.keras.layers.Dense(units, activationNone, use_biasTrue,kernel_initializerglorot_uniform,bias_initializerzeros, kernel_regularizerNone,bias_regularizerNone,activity_regularizerNone, kernel_constraintNone,bias_constraintNone, **kwargs )函数说明 …

DenseNet模型

《Densely Connected Convolutional Networks》阅读笔记 代码地址:https://github.com/liuzhuang13/DenseNet 首先看一张图: 稠密连接:每层以之前层的输出为输入,对于有L层的传统网络,一共有 L 个连接,对于DenseNe…

深入理解 keras 中 Dense 层参数

目录 引言深入理解 Dense 层的用法查看参数输入尺寸输出尺寸示例:用法完整示例示例一: 最小网络示例二:多维度数据示例三:特殊情况,待讨论 附录 引言 大家或许已经对深度学习不陌生了。不管是养家糊口工作还是科研学习早日毕业&a…

Keras大法(4)——Dense方法详解

Keras大法(4)——Dense方法详解 (一)keras.layers.Dense方法(二)使用示例(三)总 结 (一)keras.layers.Dense方法 在开始定义模型之前,我们有必要…

dense层、激活函数、输出层设计

Tensorflow——tf.layers.dense dense:全连接层 对于层方式的实现的时候! layers.Dense(units,activation)函数一般只需要指定输出节点数Units和激活函数类型即可。输入节点数将根据第一次运算时输入的shape确定,同时输入、输出节点自动创建…

Dense层

1 常见参数 model.add(Dense(units, #输出的大小(神经元个数)activationNone, #激活函数use_biasTrue, #是否添加偏置kernel_initializerglorot_uniform, #权重矩阵初始化bias_initializerzeros, #偏置初始化kernel_regularizerNone, #权重矩阵的正则函…

Keras中dense层原理及用法解释

文章目录 一.全连接层Fully Connection作用二.API解释2.1 示例1:dense层为输入层2.2 示例2:dense层为中间层2.3 示例3:dense层为输出层 三.实现过程四.数学解释 一.全连接层Fully Connection作用 全连接的核心操作就是矩阵向量乘积 y W ∗…

矩阵运算实现求样本与样本之间欧式距离

前言 最近需要写关于kmeans的一些小程序,需要计算距离,直接写for循环又特别慢,再要是样本多一点,那简直了。细细一想,需要计算距离的地方还真不少,kmeans、KNN、图等等。 1. 理论指导 小学学过的公式&am…

实现两个点集的欧式距离和cos距离和索引值寻找(含有两种解法,for循环和矩阵操作)

一.计算欧式距离 1,直接for循环 两个点集points1,points2,用dist来存储距离 points1np.array([[1,2],[3,4]]) points2 np.array([[5, 6],[7,8]]) dist np.zeros(shape[points1.shape[0],points2.shape[0]]) for i in range(points1.sha…

计算样本欧式距离——python

任务描述 本关实现一个函数来计算欧几里得距离。 相关知识 通常数据集中的样本都可描述为一个 n 维向量 。每一个维度代表样本的一个属性。比如,对于用户 x 而言,其属性可能是收入、年龄、工作时间等,对于电影而言,其属性可能…

什么是范数,及其对应的 “曼哈顿距离“、“欧式距离“、“闵氏距离“、“切比雪夫距离“

什么是范数,及其对应的 "曼哈顿距离"、"欧式距离"、"闵氏距离"、"切比雪夫距离" 一、什么是范数二、欧式距离(对应L2范数)三、曼哈顿距离(对应L1范数)三、闵氏距离&#xff0…

计算两个矩阵的行向量之间的欧式距离

1 问题描述 矩阵P的大小为[m, d] 用行向量表示为P1, P2,...,Pm 矩阵C的大小为[n, d] 用行向量表示为C1, C2,...,Cn 求矩阵P的每个行向量与矩阵C的每个行向量的欧氏距离 典型的例子是KNN算法应用于二维的点的聚类时,求取点与点之间的欧式距离时的情况。 2 …

标准化欧式距离

标准化欧式距离 在对长方体区域进行聚类的时候,普通的距离无法满足要求。 按照普通的距离聚类出的大多是圆形的区域,这时候要采用标准的欧式距离。 两个 n 维向量 a(X11,X12,X13,…X1n)与b(X21,X22,…X2n) 间的标准化欧氏距离公式为: 其中S…

Java实现的基于欧式距离的聚类算法的Kmeans作业

Kmeans作业 环境配置 java环境,使用原生的Java UI组件JPanel和JFrame 算法原理 基于欧式距离的聚类算法,其认为两个目标的距离越近,相似度越大。 该实验产生的点为二维空间中的点。 欧式距离 n维空间中的两个点X,Y d i s t…