SASSD

article/2025/9/14 23:36:59

Structure Aware Single-stage 3D Object Detection from Point Cloud

文章:SA-SSD

代码:SA-SSD

这是来自香港理工大学和达摩院的一篇文章,一作是为在读的博士生,何晨航。通讯作者是张磊,香港理工大学的博导,目前在达摩院。华先胜达摩院的的人,也是为大牛。

Abstract

提出问题:

目前的单级探测器通过完全卷积方式逐步缩小三维点云是有效的。但是缩小特征不可避免的损失空间信息和无法充分利用3D点云的结构信息,降低了位置精度。

文章工作:

通过显示的利用3D点云结构信息提升单阶段检测的位置精度。

  • 辅助网络:该网络将backbone网络中的卷积特征转化为点级的展示。这个辅助网络由两个点级监督联合优化,进而引导卷积特征感知目标结构。训练完成后,可以分离这个辅助网络,因此在推理阶段没有引入多余的计算。

  • part-sensitive warping operation:考虑到单阶段检测框出现预测框和分类得分不一致的情况,所以使用该操作将得分对齐预测框。

结果:

  • 目前在KITTI3D/BEV检测榜上排名第一(现在已经不是了)。

  • 推理速度25FPS

Introduction

目前的文章以及问题:

单阶段检测的不足:

缩小特征不可避免的损失空间信息和无法充分利用3D点云的结构信息,降低了位置精度。

两阶段检测的优缺点:

精度提升,无法应用于实时性场景。

解决方法:

auxiliary network用于提升位置精度,part-sensitive warping operation改善预测框和对应的分类得分不一致情况

  • auxiliary network

    • backbone网络的特征转化为逐点展示,然后执行两个任务:
      • 前景分割使得特征对目标边界敏感
      • 逐点中心评估,进而使得特征感知目标内关系
  • part-sensitive warping operation

    • 预测框和对应分类不一致的原因:分类概率于使用的特征映射的当前位置有关,而预测框通常偏离它们的当前位置。
    • 对空间特征映射进行分类空间变换

Related Work

Single-stage approaches

Complex-yolo, Squeezeseg, Pixor, Voxelnet, Pointpillars, Second

Two-stage approaches

F-Pointnet, Frustum convnet, Fast point r-cnn, Pointrcnn, Part-aˆ2 net, STD

Auxiliary task learning

Hdnet,

Multi-task multi-sensor fusion for 3d object detection,

Leveraging heterogeneous auxiliary tasks to assist crowd counting,

Revisiting multi-task learning with rock: a deep residual auxiliary block for visual detection

Structure-Aware 3D Object Detection via Auxiliary Network Learning

SA-SSD_struct1

backbone and detection networks

Input data representation:
{ p i = ( x i , y i , z i ) : i = 1 , . . . , N } : 点 云 坐 标 d = [ d x , d y , d z ] ∈ I R 3 : 输 入 张 量 的 量 化 步 { p ‾ i = ( ⌊ x i d x ⌋ , ⌊ y i d y ⌋ , ⌊ z i d z ⌋ ) : i = 1 , . . . , N } d = { 0.05 m , 0.05 m , 0.1 m } \{p_i = (x_i, y_i, z_i): i = 1,...,N\}:点云坐标\\ d = [d_x, d_y, d_z] \in IR^{3}: 输入张量的量化步 \\ \{\overline p_i = (\lfloor\frac{x_i}{d_x}\rfloor, \lfloor\frac{y_i}{d_y}\rfloor, \lfloor\frac{z_i}{d_z} \rfloor): i = 1,...,N\}\\ d = \{0.05m, 0.05m, 0.1m\}\\ {pi=(xi,yi,zi):i=1,...,N}d=[dx,dy,dz]IR3:{pi=(dxxi,dyyi,dzzi):i=1,...,N}d={0.05m,0.05m,0.1m}
Network architecture:

  • backbone网络:采用的是和SECOND一样的网络,有4个卷积块,获得过尺度的特征;
  • 检测网络:沿着深度通道合并成一个通道,变成BEV。之后再利用两个非线性卷积,之后再使用线性卷积分别得到part-sensitive classification mapsregression maps

Detachable auxiliary network

Motivation:
SA-SSD_aux1
问题场景:

如图a所示,目标被遮挡,边界和背景靠的很近。经过卷积,很容易使得目标丢失,或者引入背景点,如图b所示。

Point-wise feature representation

  • backbone中特征的非零索引转化为真实世界坐标系的点,表示如下: { ( f j , p j ) : j = 1 , . . . , M } \{(f_j, p_j): j = 1, ..., M\} {(fj,pj):j=1,...,M}

  • 使用Pointnet++中的feature propagation操作,将上述的数据差值为 { ( f ~ j , p j ) : j = 1 , . . . , N } \{(\tilde f_j, p_j): j = 1, ..., N\} {(f~j,pj):j=1,...,N}。方法如下:
    SA-SSD_aux2

Auxiliary tasks

  • segmentation task

    • 我们在分割分支上利用sigmoid函数,来预测每个点的前景、背景可能性,标记为 s ~ i \tilde s_i s~i s i s_i si为标签,是否落入边界框中。利用focal loss
      SA-SSD_aux3

    α = 0.5 , γ = 2 \alpha = 0.5, \gamma = 2 α=0.5,γ=2

    具体如图c所示。

  • center estimation tasks

  • 学习每个目标点指向目标中心的相对位置,利用Smoth l1 loss
    SA-SSD_aux4
    △ p ~ ∈ I R N ∗ 3 : 表 示 中 心 评 估 分 支 的 输 出 △ p : 目 标 点 到 对 应 中 心 的 目 标 偏 移 N p o s : 表 示 前 景 点 的 个 数 I [ . ] 表 示 指 标 函 数 \triangle \widetilde p \in IR^{N*3}: 表示中心评估分支的输出\\ \triangle p: 目标点到对应中心的目标偏移\\ N_{pos}: 表示前景点的个数\\ I[.]表示指标函数\\ p IRN3:p:Npos:I[.]

这两个辅助任务只应用于训练过程,不占用推理过程资源。而且显著提升预测位置的准确度。

Part-sensitive warping

  • 将最后分类层改变为K个部分敏感的分类映射
  • 将每个特征映射的预测边界框分割成K个子框,将每个子框的中心点作为采样点,进而得到K个采样网格 { S k : k = 1 , 2 , . . . , K } \{S^k: k = 1,2,...,K\} {Sk:k=1,2,...,K},以及对应的分类映射。
  • 给定预测框,已经对应的采样点 { ( u k , v k ) = S k : k = 1 , 2 , . . . , K } \{(u^k, v^k) = S^k: k = 1,2,...,K\} {(uk,vk)=Sk:k=1,2,...,K}
  • 根据如下公式得到输出的置信映射 C p C_p Cp
    SA-SSD_psw1
    { x k : k = 1 , 2 , . . . , K } : 表 示 由 最 后 分 类 层 改 变 得 到 的 K 个 部 分 敏 感 的 分 类 映 射 b ( i , j , u , v ) = m a x ( 1 − ∣ i − u ∣ , 0 ) ∗ m a x ( 1 − ∣ j − v ∣ , 0 ) \{x^k: k = 1,2,...,K\}:表示由最后分类层改变得到的K个部分敏感的分类映射\\ b(i,j,u,v) = max(1-|i-u|,0) * max(1-|j - v|,0)\\ {xk:k=1,2,...,K}Kb(i,j,u,v)=max(1iu,0)max(1jv,0)
    示意图如下:
    SA-SSD_psw2

Loss functions

SA-SSD_loss1

L c l s : 表 示 分 类 分 支 f o c a l l o s s L b o x : 表 示 预 测 框 分 支 , S m o t h − l 1 l o s s w = 2 , 根 据 S E C O N D u = 0.9 , λ = 2 实 验 所 得 L_{cls}: 表示分类分支 focal loss\\ L_{box}: 表示预测框分支, Smoth-l_1 loss\\ w = 2, 根据SECOND\\ u = 0.9, \lambda = 2 实验所得\\ Lcls:focallossLbox:,Smothl1lossw=2,SECONDu=0.9,λ=2

Experiment

3712 training set
3769 validation set
7518 testing samples
IoU thresheld = 0.7

Implementation details

Training details

lidar point range (0m, 70.4m), (-40m, 40m), (-3m, 1m) in XYZ
match threshold for positive and negitive anchors: 0.6 and 0.45
SGD
batch_size = 2
learning_rate = 0.01
weight_decay = 0.001
learning rate is decayed with a cosine annealing strategy
# inference stage
threshold of low-confidence bounding box = 0.3
IoU threshold for NMS = 0.1 

Data augmentation

cut-and-paste strategy
random flipping, global rotation and global scaling to the whole point cloud

Weight selection of auxiliary tasks

SA-SSD_loss2

Comparison with state-of-the-arts

SA-SSD_res1
SA-SSD_res2

Ablation study

不同方法对比:
SA-SSD_res3
添加不同组成对比:
SA-SSD_res4
不同分类置信度处理对比:
SA-SSD_res5

running analysis

对标SECOND方法的各个模块:
SA-SSD_res6

Conclusion

  • 我们首先提出了使用两点级监督来学习辅助网络,以指导在backbone网络中学习到的特征来感知3D目标的结构信息。没有增加推理计算情况下,显著提升了检测的位置准确度。
  • 设计了一个PSW操作,以减轻预测的边界框与它们在NMS后处理中的相应置信度之间的不一致。

http://chatgpt.dhexx.cn/article/dbivgquo.shtml

相关文章

Sarsa

基本概念 Sarsa Sarsa算法与Q-Learning算法极为相似,‘sarsa’五个字母的含义即s(当前状态),a(当前行为),r(奖励),s(下一步状态),a(下一步行为),也就是说我们在进行这一步操作时已经想到当前s对应的a&…

反激电源

扶苗平衡:是针对电感的,不是针对变压器的;是电感稳态期间的情况,不是暂态期间的情况; 一个周期内,电感开通期间两端的电压乘以开通时间电感关断期间两端电压乘以关断时间。 对于反激变压器,其实…

Part-Ⅰ2. 稳态变换器分析原则(二)

2.4 Cuk电路分析 作为第二个示例,变换器可以实现类似buck-boost电路功能:升高或降低电压幅值,并且转换极性。其电路如如下。 该转换器通过电容进行能量传输。当开关打到位置2时,电容 C 1 C_1 C1​通过 L 1 L_1 L1​连到输入电源…

buck-boost基本模型

1.电容模型 2.电感模型 3.伏秒平衡 4.电容电感 5.BUCK 6.boost 7.参考资料 《开关电源的基本概念和分析方法》

2、Principles of Steady-State Converter Analysis

2、Principles of Steady-State Converter Analysis 伏秒平衡与安秒平衡 在电路平衡时,作为存储元件的电感与电容,其储存的能量不可能无穷大,必然会稳在一个稳定值。 稳定后必然有在一个开关周期内有 所以 在求解时,只要根据…

1dB压缩点和三阶交调点、相位差与延时

1dB压缩点与三阶交调点 要知道放大器是一个非线性系统,传输函数基本用泰勒级数表示 如果输入信号幅度很小,那么上式中2次及以上的项就可以忽略而成为小信号的情况。在许多情况下我们可以忽略3次以上的项。 如果输入一个正弦信号 1、可以看到一个单频率…

半桥电路注意事项

应注意的几点问题 偏磁问题 原因:由于两个电容连接点A的电位是随Q1、Q2导通情况而浮动的,所以能够自动的平衡每个晶体管开关的伏秒值,当浮动不满足要求时,假设 Q1、Q2具有不同的开关特性,即在相同的基极脉冲宽度tt1下&…

有关DC/DC和LDO 的详细介绍以及两者的对比----之DC/DC篇

目录 DC/DC工作原理 电感电压伏秒平衡定律 开关电源的三种基本拓扑 同步整流技术 DC/DC电源调制方式 DC/DC芯片的内部构造 DC/DC电路的硬件设计 总结一下DC/DC和LDO的原理,区别和应用,以下内容部分为自己原创,部分在网上找的资料并加上…

BUCK中的电感值---开关电源篇(4)

前一篇,BUCK电路,了解到功率电感中的电流是呈现为以开关频率为周期的伏秒平衡态。 即dI * L dV * dt 1) 相同伏秒变化的情况下,电感的值如果越大,则电感上电流的变化量会越小。这个电流的变化量有个专用名称叫纹波电…

SVPWM所需要掌握的一些定理

1,正弦定理。 2.伏秒平衡(不懂) 伏秒平衡: 又称伏秒平衡,是指开关电源稳定工作状态下,加在电感两端的电压乘以导通时间等于关断时刻电感两端电压乘以关断时间,或指在稳态工作的开关电源中电感…

开关电源环路稳定性分析(2)-从开环到闭环

大家好,这里是大话硬件。 在上一节中,基于欧姆定律,基尔霍夫定律,伏秒平衡这些已知的知识点,可以推导出Buck变换器的输入输出关系。 今天这一节,我们还是从全局的概念来解析开关电源。 1. 运放和开关电源…

GaN图腾柱无桥 Boost PFC(单相)七-PFC占空比前馈

PFC占空比前馈概述 单纯依靠控制环路的PI调节器进行控制调节,控制环路的带宽会比较窄。另外,由于调节速度不够快,也将影响整个系统的动态性能。采用占空比前馈控制和反馈控制同时调节的数字控制技术,降低了对控制环路参数的要求。…

升压BOOST电路和降压BUCK电路最容易的理解

升压电路框图 首先在了解BOOST电路时,要学会如何分析最简单的升压电路框图。如图: 首先识别每个元件基本功能:电感:储能i电感;MOS管:开关作用;二极管:续流;电容&#x…

DC-DC变换器(DCDC Converter / Switched-mode Power Supply)简介

文章目录 针对B站视频,截取ppt做的完整笔记,视频地址附在下方0、DC-DC变换器概述1、DC-DC变换器的基本结构BuckBoostBuck-BoostBoost-Buck小结 2、换流与特性分析分析Buck电路分析Boost电路分析Buck-Boost电路(前级Buck后级Boost)…

电力电子技术---直流直流交换变换电路

直流-直流交换技术 文章目录 直流-直流交换技术DC-DC变换电路的工作原理脉冲调制方式Buck电路基本输入输出关系电感伏秒平衡和电容充电平衡电感的伏秒平衡电容安秒平衡 DC-DC变换电路的工作原理 DC-DC变换电路(直流斩波电路): 作用&#xf…

升降压斩波电路(电力电子技术)

1.电路原理图,开关器件为MOSFET 2.工作原理 电感L的电流和电压波形 3.输出电压的推导 推导方式一 推导方式二,根据电感伏秒平衡 4.练习题 练习题1 解题过程 练习题二 解题过程

反激开关电源变压器设计实例讲解(定明芳)

内容来自《反激变压器的设计》(定明芳主讲)。 定名芳老师主要讲了10步,最后应该还有一步,线径的选择以及绕制方式。这里进行了记录整理,把一些公式来源进行了推导。所有的设计都是基于理论计算。 1.确定电源规格 2.确定工作频率和最大占空比…

反激变换器DCM模式增益推导

针对反激变换器的DCM(电感电流断续模式)的增益进行推导。 主要原理为电感的伏秒平衡和电容的安秒平衡原理。 反激变换器的原理图如下 根据电容的安秒平衡原理可知,输出电容C在一个周期内的平均电流为0,故输出侧电流i2的平均值等…

Boost电压增益分析(输入电流低频脉动时)

1. Boost电压增益 如图所示,Boost电路的应用极为广泛,不光在DC-DC中有应用,而且在AC-DC中Boost型PWM整流器和Boost型PFC是主流拓扑。Boost的增益都很清楚,即VoVin/(1-D)。但是在输入电流有低频脉动时,比如整流器和PFC的…

BUCK电路,看完这篇我入门了

Buck、Boost、Buck-Boost作为直流开关电源中应用广泛的拓扑结构,属于非隔离的直流变换器。本文将对其中的Buck电路展开详细介绍。 *Buck基础拓扑电路 降压式(Buck)变换器是一种输出电压≤输入电压的非隔离直流变换器。Buck变换器的主电路由开…