自动驾驶感知——激光雷达物体检测算法

article/2025/10/16 11:27:36

文章目录

  • 1. 基于激光雷达的物体检测
    • 1.1 物体检测的输入与输出
    • 1.2 点云数据库
    • 1.3 激光雷达物体检测算法
      • 1.3.1 点视图
        • 1.3.1.1 PointNet
        • 1.3.1.2 PointNet++
        • 1.3.1.3 Point-RCNN
        • 1.3.1.4 3D-SSD
        • 1.3.1.5 总结和对比
      • 1.3.2 俯视图
        • 1.3.2.1 VoxelNet
        • 1.3.2.2 SECOND
        • 1.3.2.3 PIXOR
        • 1.3.2.4 AFDet
        • 1.3.2.5 总结与对比
      • 1.3.3 前视图
        • 1.3.3.1 LaserNet
        • 1.3.3.2 RangeDet
      • 1.3.4 多视图融合 (俯视图+点视图)
        • 1.3.4.1 PointPillar
        • 1.3.4.2 SIENet
        • 1.3.4.3 PV-CNN
      • 1.3.5 多视图融合(俯视图+前视图)
        • 1.3.5.1 MV3D
        • 1.3.5.2 RSN
  • 声明

1. 基于激光雷达的物体检测

1.1 物体检测的输入与输出

在这里插入图片描述输入
❖ 点:X, Y, Z和反射强度R
❖ 点云:多个点的集合(无序的,非结构化的数据)
输出
❖ 目标的类别和置信度
❖ 目标的边框(BoundingBox)
中心点3D坐标,长宽高,旋转角度
❖目标的其它信息
速度,加速度等
算法
❖ 点云表示:点视图,俯视图,前视图

1.2 点云数据库

    如下表所示:常见的点云数据库由KITTI、NuScenes、WOD等数据库。
在这里插入图片描述

1.3 激光雷达物体检测算法

    为了直观,先将激光雷达物体检测的一些常用算法列出。

算法类别算法
点视图PointNet/PointNet++,Point-RCNN,3D-SSD
俯视图VoxelNet,SECOND,PIXOR,AFDet
前视图LaserNet,RangeDet
多视图融合 (俯视图+点视图)PointPillar,SIENet,PV-CNN
多视图融合(俯视图+前视图)MV3D,RSN

1.3.1 点视图

1.3.1.1 PointNet

Qi et al., Pointnet: Deep learning on point sets for 3d classification and segmentation, 2017.
论文地址:https://arxiv.org/pdf/1612.00593.pdf

    PointNet有以下的用法:

  • 识别/分类(Classification):对于给定的一帧点云,判断该 点云中物体所属的种类。

  • 分割(segmentation):对于给定的一帧点云,将点云分成 若干个特定的、具有独特性质的区域。

在这里插入图片描述

核心思路:点云特征提取

  • MLP(多个全连接层)提取点特征:n个点,特征由3维提升到1024维
  • MaxPooling得到全局特征:1024维

端对端学习,对点云进行分类/语义分割
物体检测:Clustering得到候选 + PointNet分类

在这里插入图片描述

1.3.1.2 PointNet++

Qi et al., Pointnet++: Deep hierarchical feature learning on point sets in a metric space, 2017.

论文地址:https://papers.nips.cc/paper/2017/file/d8bf84be3800d12f74d8b05e9b89836f-Paper.pdf

在物体检测方向进行扩展:Clustering+PointNet

  • 用聚类的方式来产生多个候选点集,每个候选点集采用PointNet来提取点的特征
  • 上述过程重复多次:上一层的点集经过全局特征提取后看作下一层的点(Set Abstraction,SA)
  • 点特征具有较大的感受野,包含周围环境的上下文信息

在这里插入图片描述

PointNet和PointNet++中存在的问题

  • 无法利用视觉领域成熟的检测框架,比如Faster-RCNN,YOLO等
  • Clustering部分的计算复杂度较高,而且难以并行处理
  • 两个改进方法:Point-RCNN和3D-SSD

1.3.1.3 Point-RCNN

Shi et al., PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud, 2018

论文地址:https://arxiv.org/pdf/1812.04244.pdf

    PointRCNN是一个两步式目标检测网络,该网络第一步进行前景点分割,找出点云中所有的目标点;第二步利用前景点回归目标的准确边界框。该网络同时兼顾了检测的准确(AP@0.7=75.6%)与实时性(10FPS)。

点处理 + Faster RCNN

  • PointNet++提取点特征,同时进行前景分割,以区分物体点和背景点
  • 每个前景点生成一个3D候选框(PointNet++采用聚类生成候选)
  • 对每个候选框内的点进行Pooling,最后输出候选框所属的类别,修正其位置和大小

运行速度瓶颈++中的Feature Propagation

  • PointNet++需要将点集特征映射回原始点云(Feature Propagation), 因为聚类生成的点集无法很好的覆盖所有物体
  • 全局搜索属于每个物体候选的点

在这里插入图片描述

1.3.1.4 3D-SSD

Yang et al., 3dssd: Point-based 3d single stage object detector, 2020
论文地址:https://arxiv.org/pdf/2002.10187.pdf

提高聚类质量

  • 同时考虑点与点之间在几何和特征空间的相似度
  • 聚类的输出可以直接用来生成物体候选

避免重复计算

  • 聚类算法输出每个cluster的中心和邻域点
  • 避免全局搜索物体候选和点之间的匹配关系

在这里插入图片描述

1.3.1.5 总结和对比

❖ PointNet++的主要问题在于运行速度太慢
❖ 速度的瓶颈在于聚类过程中需要将点集特征映射回原始点云
❖ Point RCNN和3D-SSD的改进主要在于提高运行速度

在这里插入图片描述

1.3.2 俯视图

1.3.2.1 VoxelNet

Zhou and Tuzel, Voxelnet: End-to-end learning for point cloud based 3d object detection, 2018

论文地址:https://arxiv.org/pdf/1711.06396.pdf

核心点

  • 特征学习网络(Feature Learning Network)
  • 3D卷积网络 (Convolutional Middle Layers)
  • 区域候选网络(Region Proposal Network)

在这里插入图片描述
在这里插入图片描述

VoxelNet中存在的问题
❖ 数据表示低效,大量空白区域

  • KITTI数据库一般生成5K-8K个Voxel,只有0.5%的Voxel是非空的
  • 改进方法:SECOND(采用稀疏卷积)

❖ 三维卷积计算量巨大

  • 改进方法:PIXOR(3D网格压缩到2D)

1.3.2.2 SECOND

Yan et al., Second: Sparsely embedded convolutional detection, Sensors, 2018.

论文地址:https://www.mdpi.com/1424-8220/18/10/3337

稀疏卷积避免无效计算

  • 中间层采用稀疏卷积
  • 其余模块与VoxelNet类似

在这里插入图片描述

1.3.2.3 PIXOR

Yang et al., Pixor: Real-time 3d object detection from point clouds, CVPR, 2018

论文地址:https://arxiv.org/pdf/1902.06326.pdf

PIXOR (ORiented 3D object detection from PIXel-wise neural network predictions)
❖ 手工设计高度维度的特征
❖ 3D->2D:高度维度变成特征通道
❖ 可以用2D卷积来提取特征
在这里插入图片描述

  • Occupancy:L x W x H(H维度作为特征通道)
  • Intensity:L x W x 1(H方向压缩为1维)
  • In totalLxWx (H+1)

1.3.2.4 AFDet

Ge et al., Real-Time Anchor-Free Single-Stage 3D Detection with IoU-Awareness, 2021
论文地址:https://arxiv.org/pdf/2006.12671.pdf

❖ 单阶段,无Anchor
❖ Waymo 3D物体检测 2021年度的获胜算法
❖ 算法方面的改进

  • 轻量级的点云特征提取
  • 扩大神经网络的感受野
  • 额外的预测分支

在这里插入图片描述

1.3.2.5 总结与对比

❖ 俯视图

  • 输入结构化数据,网络结构简单
  • 对量化参数敏感:粗网格导致较大的信息损失,细网格导致较大的计算量 和内存使用量

❖ 点视图

  • 没有量化损失,数据比较紧致
  • 输入非结构化数据,网络结构复杂,并行处理困难,提取邻域特征困难

在这里插入图片描述

1.3.3 前视图

前视图的特点
❖ 优点

  • 表示更为紧致,而且没有量化损失
  • 每个像素上理论上都会有数据

❖ 问题

  • 不同距离的物体尺度差别很大
  • 2D特征与3D物体信息存在不一致性

1.3.3.1 LaserNet

Meyer et al., LaserNet: An Efficient Probabilistic 3D Object Detector for Autonomous Driving, 2019.
论文地址:https://arxiv.org/pdf/1903.08701.pdf

❖ 输入数据为多通道的前视图图像
❖ 卷积和下采样提取多尺度特征
❖ 每个像素都预测物体边框的分布(均值和方差)
❖ MeanShift聚类+NMS得到最终的输出

在这里插入图片描述

1.3.3.2 RangeDet

Fan et al., RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection, 2021

论文地址:https://arxiv.org/pdf/2103.10039.pdf

核心点:

❖ Meta-Kernel Convolution
❖ Range Conditioned Pyramid

在这里插入图片描述
在这里插入图片描述

1.3.4 多视图融合 (俯视图+点视图)

❖ 基本思路

  • 在较低分辨率的Voxel上提取邻域特征或者生成物体候选
  • 在原始点云上提取点特征,忽略空白区域,保持空间分辨率
  • Voxel特征与点特征结合

❖ 代表性方法

  • PointPillar
  • PV-CNN
  • SIENet

1.3.4.1 PointPillar

Lang et al., PointPillars: Fast Encoders for Object Detection from Point Clouds, 2019.

论文地址:https://openaccess.thecvf.com/content_CVPR_2019/papers/Lang_PointPillars_Fast_Encoders_for_Object_Detection_From_Point_Clouds_CVPR_2019_paper.pdf

❖ 特征: PointNet提取点特征(点视图),然后进行Voxel量化(俯视图)
❖ 主干:Feature Pyramid Network
❖ 检测头:SSD

在这里插入图片描述

1.3.4.2 SIENet

Li et al., SIENet: Spatial Information Enhancement Network for 3D Object Detection from Point Cloud, 2021.
论文地址:https://arxiv.org/pdf/2103.15396.pdf

❖ 融合策略与PV-CNN相似
❖ 解决远处物体点云相对稀疏的问题

  • 采用了一个附加分支,将物体候选框中的点集进行扩展

在这里插入图片描述

1.3.4.3 PV-CNN

Liu et al., Point-voxel CNN for efficient 3d deep learning, 2019.
论文地址:https://arxiv.org/pdf/1907.03739.pdf

❖Voxel分支:低分辨率的Voxel提取邻域特征,然后映射回每个点上
❖Point分支:利用MLP来提取点特征,没有量化损失,也避免空白区域的计算
❖两个分支的特征合并用于后续的物体检测

在这里插入图片描述

1.3.5 多视图融合(俯视图+前视图)

❖ 基本思路

  • 融合俯视图和前视图下的特征
  • 尽量避免空白区域的无效计算

❖ 代表性方法

  • MV3D
  • Range Sparse Net (RSN)

1.3.5.1 MV3D

Chen, et al., Multi-view 3d object detection network for autonomous driving, 2017
论文地址:https://openaccess.thecvf.com/content_cvpr_2017/papers/Chen_Multi-View_3D_Object_CVPR_2017_paper.pdf

❖ BEV网格生成3D物体候选,再转换为不同视图下的候选
❖ 不同候选中进行ROI-Pooling
❖ 在候选层级上融合不同视图的特征

在这里插入图片描述

1.3.5.2 RSN

Sun, et al., RSN: Range Sparse Net for Efficient, Accurate LiDAR 3D Object Detection, 2021.
论文地址:https://arxiv.org/pdf/2106.13365.pdf

在这里插入图片描述

两阶段检测器,目的在于提高检测距离的可扩展性

  • 阶段1:前视图上进行前景分割,过滤背景点
  • 阶段2:前景点量化为Voxel,稀疏卷积提取特征,稀疏的Grid上检测物体
  • 稠密的前视图+稀疏的俯视图

声明

本人所有文章仅作为自己的学习记录,若有侵权,联系立删。本系列文章主要参考了清华大学、北京理工大学、哈尔滨工业大学、深蓝学院、百度Apollo等相关课程。


http://chatgpt.dhexx.cn/article/7iGA0UHZ.shtml

相关文章

物体检测之YOLO系列

业界对于目标检测的热度只增不减,但目前的框架也难于逾越RCNN系列、SSD、YOLO系列这三座大山,很多新的方法也是在此基础上做一些改进,所以有必要做一些整理,方便自己后续查看,这里先对YOLO系列做一些整理。没看过文章的…

物体检测难点 (多尺度检测, 遮挡与拥挤)

目录 多尺度检测降低下采样率与空洞卷积Anchor 设计多尺度训练 (Multi Scale Training,MST)特征融合尺度归一化: SNIP (Scale Normalization for Image Pyramids)Image Classification at Multiple ScalesData Variation or Correct Scale?Object Detection on an …

点云物体检测简介

点击上方“3D视觉工坊”,选择“星标” 干货第一时间送达 本文由知乎作者Leon Wu授权转载,不得擅自二次转载。原文链接:https://zhuanlan.zhihu.com/p/81474133 深度学习的开始 人类的大脑是一个神秘的器官,它由无数的神经细胞组成…

物体检测

计算机视觉中目标检测、跟踪、识别是最基本的几个task,尤其又以检测最为重要和基础。同时基本上所有的检测任务都需要在给出物体的bounding box之后,给出物体的类别(也就是给识别物体),所以文章中不区分检测和识别任务…

实时3D物体检测

谷歌发布的MediaPipe Objectron,是一个可以实时检测3D物体检测的模型框架,先在2D图像上检测物体,然后估算出3D坐标。 尽管目前2D物体检测已经相对成熟,但3D检测仍然是个挑战性的问题,主要是缺少大量有效的数据用于训练…

物体检测实战:使用 OpenCV 进行 YOLO 对象检测

使用 OpenCV 进行 YOLO 对象检测 本文将教你如何使用YOLOV3对象检测器、OpenCV和Python实现对图像和视频流的检测。用到的文件有yolov3.weights、yolov3.cfg、coco.names,这三个文件的github链接如下: GitHub - pjreddie/darknet: Convolutional Neura…

传统物体检测

传统物体检测 1. 特征2. 模板匹配3. 颜色直方图4. 空间分拣5. 梯度特征6. HOG 特征7. 特征融合8. 搭建分类器8.1 数据标注8.2 数据预处理8.3 训练分类器8.4 交叉验证 9. 滑动窗口9.1 多尺度窗口9.2 Hog子采样窗口搜索(Hog Sub-sampling Window Search) 10. Multiple Detections…

计算机视觉之旅-进阶-物体检测

1. 物体检测概念 计算机视觉中的物体检测是指在图像中检测和定位特定目标对象,它是计算机视觉中一个基本而又重要的问题。 物体检测的目的就是在输入图像中检测所关心的目标对象,并给出其边界框和类别信息。典型的输出包括: - 边界框:表示目标对象在图像中的位置和大小。常用…

物体检测技术的简单介绍

1. 物体检测技术概念 物体检测技术,通常是指在一张图像中检测出物体出现的位置及对 应的类别,主要包括物体类别、 x m i n x_{min} xmin​、 y m i n y_{min} ymin​、 x m a x x_{max} xmax​与 y m a x y_{max} ymax​。它是一项非常基础的任 务&…

Opencv项目实战:05 物体检测

1,效果展示 为此,我专门还去查了查,怎么将视频转化为gif图,不知不觉中,我又多学会了一项技能。 OK!cool,效果很不错,今天需要搭配一些文件,都是可以从官网里找到的,那么我为了方便,专门去学习怎么在GitHub上托管项目,还下载了VScode和Git,我太难受了,如果不是要写…

百万youtube高清视频数据集采集

HD-VILA-100M是什么? HD-VILA-100M是一个大规模、高分辨率、多样化的视频语言数据集,有助于多模态表示学习。 数据统计 该数据集共包含330万个视频,视频质量较高,均衡分布在15个类别中。 下载(Download) 您可以通…

100多万个视频短片数据集来啦!

本文经授权转载自 IEEE电气电子工程师学会(ID: IEEE_China) 想象一下,如果我们必须向外星人解释地球上发生的所有行为。我们可以为他们提供非小说类书籍或BBC纪录片。我们可以尝试口头解释什么是电臀舞。但是,实际上,没…

大数据视频课程汇总

1.由于未经视频版权方授权,很可能会被下架,请各位需要的同仁及时下载,如果被下架,请留言说明。 2.视频为大数据梅峰谷整理,所有视频不加密,不收费,不做机构的宣传品,(因为微信和各大…

视频分类数据集介绍

视频分类数据集 在视频分类项目中,有很多经典的公开数据集,目前主要的数据集如列表所示: 重点介绍三个中等规模的数据集。 1. UCF101 动作识别数据集,从youtube收集而得,共包含101类动作。其中每类动作由25个人做动作…

Python毕业设计 抖音短视频数据分析与可视化 - python 大数据 可视化

文章目录 0 前言1 课题背景2 数据清洗3 数据可视化地区-用户观看时间分界线每周观看观看路径发布地点视频时长整体点赞、完播 4 进阶分析相关性分析留存率 5 深度分析客户价值判断 0 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕…

大数据分析视频全套

一、全套视频总览 二、大数据分析之level2 三、大数据分析之level3 四、大数据分析之level4 五、课程相关资料 具体详细内容及目录结构如下: 注: 大数据分析与大数据开发的区别在于:本套课程涵盖算法更多,需掌握python语言&#…

AI大数据可视化EasyCVR视频融合平台的部署操作流程详解

EasyCVR视频融合平台基于云边端一体化架构,具有强大的数据接入、处理及分发能力,平台支持海量视频汇聚管理,能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,实现视频直播、云端录像、云存储、…

音视频造数据的路

目录 1、多路数据制造 (1)合并多路 (2) 视频修改分辨率 (3) 修改视频码率 (4)修改帧率 2、音频流多声道合成 (1)双声道合并单声道 (2&…

音视频数据介绍

1、前言 在诸如安防系统标准GB28181和“电网视频监控系统及接口”中,固定视频流的传输格式为PS格式。PS流和TS流的概念是在MPEG2的ISO/IEC-13818标准的第一部分“系统”中提出的。其提出的目的是提供MPEG2编码比特的存储与传输方案。 2、先介绍PS封装中的…

互联网海量视频数据的存储

原文链接:http://www.docin.com/p-86312184.html?docfromrrela 一、背景 互联网内容提供方式转变:用户创造内容。视频应用、网络游戏、搜索引擎等互联网衍生业务迅速发展,使得海量数据存储、管理和处理成为当今互联网公司面临的严峻问题。这…