SESS: Self-Ensembling Semi-Supervised 3D Object Detection论文阅读及理解

article/2025/9/26 19:03:56

SESS: Self-Ensembling Semi-Supervised 3D Object Detection

Abstract

3d检测通常以来目标的标签和注释,然而获得这些注释是十分困难的。

SESS一种自集成的半监督三维目标检测框架。

设计了一种扰动方案,加强对未标记数据和新的为可见数据的泛化。

提出三种一致损失(consistency loss),加强两组预测三维目标提议之间的一致性。

 半监督学习的方式,通过一个混合标签的数据和为标注的数据进行训练。

Introduction

半监督学习只需要很小一部分的标签,很大程度的减少了收集大量数据标签的问题。

3d目标检测任务中完全去除标签是不太可能的,因为3d点云的稀疏性和无序性,且物体容易被阻挡。

SESS通过包含了教师和学生网络的教师平均范式3d目标检测网络进行半监督学习。教师网络指导学说网络在面对不同的扰动下保持相同的预测。在训练结束时,我们希望能够让教师网络和学生网络提出的检测提案是一致的。

提出三种一致性损失,分别是提案的中心点、类别以及大小(bounding box)。

Our Method

Problem Definition

在半监督学习的设定中,输入为N个训练样本,其中包括了Nl个有标签的点云PL,

 和u个未标签的点云

 表示点云的表示场景,具有n个点的3为特征向量。

 以标签点云的真实标签(ground truth)。

 每个对象都由一个语义类s表示(占预定义类的1/1000).

bbx由中心点坐标和他的大小和沿直立轴的转角θ表示表示。

SESS Architecture

SESS总体架构如图:

 将两个有标签和无标签的点云作为输入

 Bl和Bu表示一次采样中标签和未标签样本。首先随机从点云中采样M个点,得到两个点集,将第一个点集Xs通过一个随机的变换矩阵T进行扰动,得到X^s,另一个点集Xt直接送至教师网络,得到的预测Yt也通过同样的随机变换矩阵进行扰动得到Y^t。

对于Y^t中的每个提案,通过欧几里得距离从学生网络预测的Y^s中找到最接近的提案。每个对齐的提案的误差由上述的三个一直损失计算得到。

同时XLs对应的ground truth YL经过同样的变换矩阵T,得到的变换矩阵Y^L于学生网络的输出Y^LS通过监督损失进行比较。

最后,学生网络的参数Φ通过梯度下降进行更新,而将学生网络的参数以指数平均的方式对教师网络的参数Φ~进行平均:

 α是一个超参数,控制教师网络从学生网络中获得多少信息。

Perturbation Scheme

数据扰动和数据扩张对于自集成方案有着很大的作用。

Random Sub-sampling

对学生网络和教师网络的部分都采用了随机子采样作为扰动方案。

Stochastic Transform

对学生网络子采样的点集进行翻转、缩放以及旋转。具体来说,将变换作设置为一个随机的变量:Fx表示沿x轴的随机翻转,Fy表示沿y轴的随机翻转,Fx的值取决于:

从[0,1]中随机取值,Fy的值类似获得。

R表示绕直立轴的旋转矩阵,w从[-θ,θ]中随机采样:

 S从[a,b]中均值采样用来表示缩放。

最终产生的矩阵Ti用于令输入学生网络的点云Xs进行变换,注意,ground truth label yLi在用于计算监督损失之前也需要通过相同的Ti矩阵进行变换。教师网络输出的预测yt也需要通过相同的矩阵进行变换。

 

Consistency Loss

两组三维对象提案的一致性是不能直接计算的。

将来自学生网络和教师网络的提案进行配对,然后使用三个一致性损失进行计算。

作为学生网络bounding box的预测中心,作为变换后的教师网络预测的中心。对于教师网络预测的每个中心点c^t和学生网络预测的中心点通过最小的欧氏距离进行对其。进一步使用表示学生网络预测的中心点和教师网络预测中心点对其的点,表示为:

 

同样收集教师网络与学生网络以欧氏距离判断的最接近的点与学生网络的预测中心点进行配对。

 若教师网络和学生网络预测的bounding box是一致,各对应元素的距离和应该为0

中心一致损失:

 在集成学习中,教师网络生成学习目标给学生网络进行学习,分别用表示学生网络和教师网络预测目标类别的可能性。对应的基于最小中心距离很容易得到,通过之间的KL散度来定义类感知的一致性损失:

 

 对于学生网络和教师网络对于bounding box大小的预测表示为:

 利用最小中心距离计算得到对应的之间的均方差误差可以表示为:

 

总的一致性损失可以由这三个损失加权表示得到:

 


http://chatgpt.dhexx.cn/article/BTI5IvwP.shtml

相关文章

Elasticsearch——》ngram分词器

推荐链接: 总结——》【Java】 总结——》【Mysql】 总结——》【Redis】 总结——》【Kafka】 总结——》【Spring】 总结——》【SpringBoot】 总结——》【MyBatis、MyBatis-Plus】 总结——》【Linux】 总结——》【MongoD…

Elasticsearch 的 NGram 分词器使用技巧

一、什么是NGram 分词器? NGram分词器是ES自带的具有前缀匹配搜索功能的一个文本分词器。它能根据文本的步长逐步对写入的文本内容进行约束切割; 二、NGram和index-time搜索推荐原理 搜索的时候,不用再根据一个前缀,然后扫描整个倒排索引了…

Ngram模型

N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字&…

ElasticSearch之ngram分词器

一、什么是NGram 分词器? edge_ngram和ngram是ElasticSearch自带的两个分词器,一般设置索引映射的时候都会用到,设置完步长之后,就可以直接给解析器analyzer的tokenizer赋值使用。 二、怎么使用 完整的索引结构: {&…

MySql的Ngram全文索引

前言 在我们日常开发中,很多时候会遇到对数据库中某个字段模糊查询的需求,也就是like某个字段,但是很多公司像阿里,京东都禁止使用like来对数据库进行模糊查询,原因是啥呢? 我们先来看下面三条语句 其中t…

语言模型-Ngram

总结工作中用到和学习的知识,也算自己的一个笔记。 语言模型 语言模型简单来讲,就是计算一个句子的概率,更确切的说是计算组成这个句子一系列词语的概率。 举个简单的例子,我们知道“武松打死了老虎”相比于“老虎了死武松打”,更像是一句正常的话,这是因为前者出…

N-gram算法

语言模型 语言模型起源于语音识别(speech recognition),输入一段音频数据,语音识别系统通常会生成多个句子作为候选,究竟哪个句子更合理?就需要用到语言模型对候选句子进行排序。 语言模型:对于任意的词序列&#xf…

N-Gram语言模型

一、n-gram是什么 wikipedia上有关n-gram的定义: n-gram是一种统计语言模型,用来根据前(n-1)个item来预测第n个item。在应用层面,这些item可以是音素(语音识别应用)、字符(输入法应用)、词&am…

MATLAB 离散傅里叶变换(DFT)、逆离散傅里叶变换(IDFT)、快速傅里叶变换(FFT)的实现

离散傅里叶变换(DFT)、逆离散傅里叶变换(IDFT)的实现 代码如下,其中xn为时序序列 clc;clear; xn[7,6,5,4,3,2]; Xkdft(xn,6); xidft(Xk,6);subplot(2,2,1);stem(0:5,abs(Xk),filled); axis([0,5,0,1.1*max(abs(Xk))]…

图像处理基础(三)DFT与IDFT变换

傅里叶变换(DFT) 首先来看看傅里叶(DFT)变换的公式 (1) FP\frac {1}{N}\sum_{x0}^{N-1}\sum_{y0}^{N-1}P_{x,y}\exp(-j(\frac{2 \pi}{N})(uxvy)) 幅度 (2) w\sqrt{u^2v^2} 其中 u,v代表空间频率,即灰度梯度,梯度由坐标与灰度值求导的向量 w代表 振幅…

第4章 Python 数字图像处理(DIP) - 频率域滤波7 - 二维DFT和IDFT的一些性质 - 傅里叶频谱和相角

目录 二维DFT和IDFT的一些性质傅里叶频谱和相角 二维DFT和IDFT的一些性质 傅里叶频谱和相角 F ( u , v ) R ( u , v ) j I ( u , v ) ∣ F ( u , v ) ∣ e j ϕ ( u , v ) (4.86) F(u, v) R(u, v) jI(u, v) |F(u, v)|e^{j\phi(u,v)} \tag{4.86} F(u,v)R(u,v)jI(u,v)∣F(…

实数序列频谱的共轭对称性(DFT与IDFT仿真实现)

一、基础知识 1、傅里叶变换:通俗来讲,是以时间为自变量的信号与以频率为自变量的“频谱函数”之间的某种转换关系。 DFT:即离散傅里叶变换,对离散序列进行傅里叶变换。设x(n)为长度为M的有限长序列,其N点DFT定义(公…

第4章 Python 数字图像处理(DIP) - 频率域滤波8 - 二维DFT和IDFT的一些性质 - 二维离散卷积定理

目录 二维DFT和IDFT的一些性质二维离散卷积定理二维离散傅里叶变换性质的小结 二维DFT和IDFT的一些性质 二维离散卷积定理 二维循环卷积表达式: ( f ⋆ h ) ( x , y ) ∑ m 0 M − 1 ∑ n 0 N − 1 f ( m , n ) h ( x − m , y − n ) (4.94) (f \star h)(x, …

FFT学习笔记(DFT,IDFT)

昨天参悟了一天FFT,总算是理解了,今天的莫比乌斯反演也不太懂,干脆弃疗,决定来认真水一发博客。 什么是FFT? FFT(Fast Fourier Transformation),即为快速傅氏变换,是离散傅氏变换&…

【OpenCV4】图像的傅里叶变换 cv::dft() 和逆变换 cv::idft() 解析(c++)

图像傅里叶变换的作用: 频谱分析,获取图像中高频低频的分布情况快速卷积,两个矩阵的傅里叶变换结果相乘 案例代码: cv::Mat TestOpencvDft() {cv::Mat lena cv::imread("lena.jpg", 0);cv::resize(lena, lena, cv::…

Matlab如何进行利用离散傅里叶逆变换iDFT 从频谱恢复时域信号

文章目录 1. 定义2. 变换和处理3. 函数4. 实例演示例1:单频正弦信号(整数周期采样)例2:含有直流分量的单频正弦信号例3:正弦复合信号例4:含有随机干扰的正弦信号例5:实际案例 5. 联系作者 1. 定…

离散傅里叶变换(DFT/IDFT、FFT/IFFT)运算量的讨论

前言:关于为什么要写这个博客 最近在重新看《合成孔径雷达成像 算法与实现》这本书,看到“离散傅里叶变换记其逆变换的运算量级为”这句话,就想起当初在学《数字信号处理》中FFT那章节时,书中有对比DFT和FFT的运算量的一些文字&am…

OpenCV-离散傅里叶变换cv::dftcv::idft

作者:翟天保Steven 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 函数原型 void dft(InputArray src, OutputArray dst, int flags 0, int nonzeroRows 0); void idft(InputArray src, Output…

12点的idft c语言,【整理】用IDFT实现UF-OFDM和OFDM的模拟调制

cooperate with Liu Lei 用IDFT实现OFDM的代码如下: N32; xrandint(1,N,[0 3]); x1qammod(x,4); f1:N; t0:0.001:1-0.001; w2*pi*f.*t; % w12*pi*(f0.2).*t; y1x1*exp(j*w);%子载波调制 x2ifft(x1,N); %ifft figure(1); plot(t,abs(y1)); hold on; stem(0:1/N:1-1/N…

离散傅立叶变换推导(DF、IDFT)

mazonex离散傅立叶变换视频笔记 需要先了解傅里叶变换推导(FT、IFT) 本文仅作为笔记,推导思想和图片来自视频 周期为 2 π 2\pi 2π的函数的复数形式展开(傅里叶级数) 在上一篇文章中part4中提到周期 T 2 L T2L T2L函数的复数形式展开为: f ( t ) ∑…