多任务多传感器数据融合实现3D目标检测

article/2025/9/14 15:21:46

转载自:自动驾驶之心

01 引言

本文介绍一篇uber公司在CVPR上发表的一篇论文,即使用多种传感器(LiDAR和RGB相机)数据,以及多任务进行数据融合,实现准确高效的3D目标检测。简而言之,自动驾驶领域因为:

1.相机无法提供细颗粒度的3D目标特征信息;

2.LiDAR只能提供稀疏的观测信息。

由于这两个主要原因,很直观的科研界和工业界提出了很多多传感器融合的方法,那么如何实施融合,又大致分为以下三类:

• 多传感器级联式特征数据融合;

• 一阶段特征检测融合;

• 二阶段特征检测融合。

然而,这些方法也有存在很多不足。

比如,多传感器级联式特征数据融合方法,简单来说,就是以“串联”的方式,把不同传感器的数据进行融合优化,那么不同级联阶段,不同的传感器的缺陷依然制约着最终的检测精度。

一阶段特征检测融合,一般方法是使用某一种传感器数据,其他传感器数据用来做优化,一般做法都是用LiDAR数据来优化相机特征数据,但是LiDAR数据往往过于稀疏,某些特殊情况下,一个特征只有一个点来表示,那么对于融合优化的性能提升微乎其微。

二阶段特征检测融合,就不仅仅是基于低级特征进行融合,而是在不同传感器数据低级特征的基础上,进一步使用ROI等方法,提取更高维度的特征信息,最终实现准确的目标检测,但是缺点也很明显,这一过程耗时严重,对于能否满足自动驾驶的实时检测有待商榷。

针对这些方法的不足,本文提出了基于多任务和多传感器数据融合实现3D目标检测算法,下面是本算法的具体实施方案图。从下往上来看,就是以LiDAR数据和RGB相机数据作为输入,分别实施四种任务:建图、3D目标检测、3D目标检测、深度估计。

02 算法框架详解

如果用一句话总结本算法的措施,就是----“大力出奇迹”。本算法,相当于将多传感器(LiDAR和相机)数据,分别实施了不同的任务,包括:建图、3D目标检测、3D目标检测、深度估计。这四种不同的任务,然后结合这四种不同任务的结果,实现3D目标的准确预测,这种冗余的功能必然带来性能的提升,同样也会带来一些问题,比如算法运行的时间效率就是一个问题,从这个思路入手,进一步挖掘,可能又是一个算法思路。这里,我们给出算法框架图。

整个算法框架很好理解,从左到右,依次是数据输入,一阶段的数据提取,二阶段的不同任务计算和3D目标检测。

数据输入,LiDAR数据为了方便和效率,使用体素格式表示LiDAR数据,简单的示例如下。LiDAR数据的又是很明显,对于表示细粒度的目标方便便捷,但是往往特征信息丰富程度不充分。此外,本文为了简化计算量,直接使用鸟瞰图替代了真实3D体素点云图,这样,就减少了一个维度,大大减少了计算量。需要注意的是,LiDAR点云数据同样生成了衣服稀疏深度图像,作为深度估计任务的输入之一。对于RGB相机数据,大家都比较数据,直接作为数据进行输入。

一阶段的数据提取,这里采用普遍的深度神经网络结构,值得注意的是,本算法采用了两路网络结构,这同样很消耗计算量。具体来来说,就是RGB相机图像数据输入到一个ResNet中,LiDAR数据也输入到一个稍作修改的ReNet中(这里的修改是基于ResNet-18基础上,加深了网络深度,同时减小网络宽度),LiDAR数据处理的网络之后接着FPN,实现多尺度特征提取。这样,本算法就实现了对于RGB图像特征信息和LiDAR数据特征信息的提取。

二阶段操作,主要涵盖了像素级的数据融合和ROI级的数据融合。由上一阶段得到的多尺度特征信息,将从图像数据提取到富信息与LiDAR特征信息进行融合,像素级信息融合,如下图所示。

值得注意的是,不是将两种传感器特征信息进行直接相加,而是通过构建图像特征图与点云鸟瞰图之间构建稠密准确的关系,简单的做法就是:对于鸟瞰特征图中每一个像素,找到LiDAR数据中的最近点,投影到图像特征图中,从而获得对于的图像数据特征信息,进一步计算鸟瞰图像素和LiDAR点之间的距离作为几何特征信息,最终将几何特征信息和图像特征信息联合输入到多层感知机进一步像素级融合。

ROI级别的特征提取,则是为了进一步提高3D目标检测的精度。这样的话,ROI特征提取就要非常准确,从而预测出准确的box,通过将3D检测结果投影到图像和鸟瞰特征图上,获得一个轴对齐的图像ROI和一个有方向的鸟瞰ROI,这一过程又包含了三种特征增强方法,分别是:周期性旋转、方向性锚点和ROI对齐。

03 试验和结果

本文提出的算法,在KITTI的2D、3D和BEV数据上,进行评估算法的各项性能,同时在TOR4D比赛上评估了算法的性能。这里不详述KITTI数据集相关介绍,需要进一步了解的同学可以在文末的引用链接进一步查看。

从上面的截图可知,本文算法在KITTI数据上都获得最有的性能表现,基本都有2个百分点的提高,这主要是归结于本算法使用了多种不同任务来辅助提高目标检测精度。进一步,为了衡量不同功能模块对于性能的影响,这里使用了消融实验,主要涵盖了LiDAR、图像、建图、优化约束和深度估计,这几个功能模块,具体的效果如下图。

简单来说,在2D和3D数据上,深度估计模块对于性能的提高最为重要,而在鸟瞰数据集上,算法整体对于功能提高影响最大。

04 总结

本文提出了一种多任务多传感器检测模型,该模型联合推理 2D 和 3D 对象检测、全局估计和深度补全。像素级和 ROI级特征融合用于实现完整的多传感器融合,而多任务学习提供额外的地图先验和几何线索,从而实现更好的表示学习和更密集的特征融合。在 KITTI 和 TOR4D基准上验证了所提出的方法,并在所有检测任务中大大超越了最新技术。
多任务多传感器数据融合实现3D目标检测https://mp.weixin.qq.com/s/gPciLw5RT1iDYySTw6vjAw


http://chatgpt.dhexx.cn/article/OPZurVBM.shtml

相关文章

压力传感器

压力传感器 压力传感器是最常用的一种传感器,其应用范围有各种工业互通环境,涉及航空,航天,军工,石化,电力等。按照不同的测试,压力类型可分表压传感器,差压传感器,绝压…

多传感器融合定位(一)——3D激光里程计

目录 一、点云地图整体流程 二、激光里程计方案 2.1 ICP点到点 2.1.1 ICP推导 2.1.2 ICP改进 2.2 NDT 2.2.1 NDT推导 2.2.2 NDT改进 2.3 LOAM系 2.3.1 LOAM 2.3.2 A-LOAM 2.3.3 LEGO-LOAM 2.4 数据集及评价指标 2.4.1 KITTI简介 2.4.2 指标 一、点云地图整体流程…

MMDetection3D 1.1:统一易用的 3D 感知平台

自从两年前 MMDetection3D 发布以来,我们收到了很多用户的反馈,其中有不少有价值的建议,同时也有很多吐槽(当然我们非常欢迎大家来吐槽),也有很多社区用户参与到我们代码库的完善中,我们也非常高…

关于传感器

人的眼睛就是传感器。人对光的感应靠眼睛,在光亮条件下,人眼能分辨各种颜色。首先从人眼构造开始讲起。眼睛最里面的膜是视网膜,它布满了整个眼睛后部的内壁。当眼球适当地聚焦时,来自眼睛外部的光在视网膜上成像。在视网膜表面分…

ToF 3D视觉传感技术详解、应用场景和市场前景

‍转载自:3d tof 现行的深度传感镜头作为智能手机的一大创新,已在目前主流智能手机上广泛应用。现因苹果在最新版iPad Pro上搭载了D-ToF(直接飞行时间法)深度传感镜头引起了极大的关注,推动了3D视觉在消费场景的新应用…

奥比中光Orbbec Astra Pro RGBD 3D视觉传感器在ROS(indigo和kinetic)使用说明

作者:童虎 编辑:3D视觉开发者社区 Orbbec Astra Pro传感器在ROS(indigo和kinetic)使用说明 这款摄像头使用uvc输入彩色信息,需要libuvc和libuvc_ros这样才能在ROS正常使用彩色功能。 请在下面网址,分别下载…

3D传感相关

这里涉及了各种3D传感相关的工作,包含单目、双目、ToF等传感器,涉及了计算摄影、ToF深度测量、双目深度估计、多视角深度估计、相机离线标定、相机在线标定、NeRF等技术,可谓3D视觉集大成者。 这里简单介绍下本文将会提到的两种3D成像技术&a…

3D激光雷达SLAM算法学习02——3D激光雷达传感器

1.本篇思维导图 2. 3D激光雷达传感器分类 3. 机械激光雷达 直观视频感受:Velodyne 优点:360视野,精度高,工作稳定,成像快 缺点:成本较高,不符合自动驾驶车规,生命周期短&#xff0c…

Lidar 3D传感器点云数据与2D图像数据的融合标注

2D&3D融合 以自动驾驶场景为例,自动驾驶汽车需要使用传感器来识别车辆周围的物理环境,用来捕获2D视觉数据,同时在车辆顶部安装雷达,用以捕捉精确目标定位的3D位置数据。 激光雷达生成的点云数据可用于测量物体的形状和轮廓,估…

3D视觉传感器产业现状-2018年

总结一下,主要参考于MEMS市场调研 MEMS.ME, 必须找专业的分析和咨询公司才行,或者活跃在前沿的资深行业专家。市场分析只能给出大致的销售状况,还不能给出详细的技术数据对比。 从三维重建的算法、技术原理和效果参数上分析&#…

三种常见的3D传感器比较

作者 | dianyunPCL 编辑 | 点云PCL 本文只做学术分享,如有侵权,联系删文 点击下方卡片,关注“自动驾驶之心”公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心【硬件交流】技术交流群 摘要 在过去的十年里,3D传感…

3D视觉|了解下工业上常见的3D相机

说起相机,大家估计都很熟悉了。那么相对于平常使用的2D相机,3D相机又有哪些区别呢,顾名思义,3D相机可以让我们获取我们物理世界的空间信息,即立体三维的物理信息。多了一个维度的信息,似乎打开了一扇大门&a…

基于多传感器的3D多目标跟踪算法汇总

1. IROS 2020-AB3DMOT:A Baseline for 3D Multi-Object Tracking and New Evaluation Metrics 代码链接:https://github.com/xinshuoweng/AB3DMOT 文章链接:http://www.xinshuoweng.com/papers/AB3DMOT_eccvw/camera_ready.pdf 出发点&#x…

3D相机技术 | 立体视觉传感器+TOF相机

转自 | 睿慕课 文章结构 前言立体视觉传感器原理简介工业领域应用主流立体视觉的产品TOF相机工作原理TOF工业领域应用一些TOF研究机构 1.前言 在机器视觉应用中,物体三维形状的获取变得越来越重要。在这个系列里,我们将讨论目前在机器视觉行业中可用的3…

一文聊聊用于机器感知的3D与2D传感器数据 | 数据标注

人类和机器之间最大的区别之一在于我们感知周围环境的方式。我们都存在于3D世界中,人类天生能够感知复杂的几何形状、透视、遮挡、消失点、物体持久性等带来的影响,但机器却很难处理这些最简单的情况。 想让他们能够“看到”仍然是一个热门的研究领域。机…

多传感器融合 | CenterFusion:毫米波雷达和相机后融合3D检测算法

点击下方卡片,关注“自动驾驶之心”公众号 ADAS巨卷干货,即可获取 今天自动驾驶之心很荣幸邀请到寒风分享RV后融合算法CenterFusion,如果您有相关工作需要分享,请在文末联系我们! >>点击进入→自动驾驶之心【多传…

Ansys Lumerical Zemax Speos | CMOS 传感器相机:3D 场景中的图像质量分析

在本例中,我们介绍了一个仿真工作流程,用于在具有不同照明条件的特定环境中,从光学系统和CMOS成像器的组合中分析相机系统的图像质量。此示例主要涵盖整个工作流程中的Ansys Speos部分。该光学系统采用Ansys Zemax OpticStudio设计&#xff0…

三维力传感器

背景介绍 三维力传感器在现实生活中具有广泛的应用,例如:机器人关节传感元件,医疗设备以及智能制造装备等,调研可知,三维力传感器通过弹性体元件,把外力转换为结构的变形,进而通过应变片实现三维…

视觉传感器:3D感知算法

作者丨巫婆塔里的工程师知乎 来源丨https://zhuanlan.zhihu.com/p/426569335 编辑丨 一点人工一点智能 1 前言 之前的一篇文章介绍了基于视觉传感器的2D环境感知,包括2D物体检测和跟踪,2D场景语义分割。 但是,对于自动驾驶应用来说&#xff0…

3D 霍尔效应位置传感器原理解析

描述 在各种工业 4.0 应用中,通过 3D 位置检测进行实时控制的情况越来越多,从工业机器人、自动化系统到机器人真空和安防。3D 霍尔效应位置传感器无疑是这些应用的极好选择,因为这种传感器具有很高的重复性和可靠性,而且还可与门窗…