AVOD论文解读

article/2025/11/7 8:08:22

AVOD论文解读

- 1.概述
- 2.网络框架
- - 2.1 激光点云数据预处理
  - 2.2 特征提取
  - 2.3 降低数据量
  - 2.4 3D后选区域生成
  - 2.5 3D检测框编码
  - 2.6 朝向估计

论文地址：[1712.02294] Joint 3D Proposal Generation and Object Detection from View Aggregation (arxiv.org)

代码地址：https://link.zhihu.com/?target=https%3A//github.com/kujason/avod

1.概述

AVOD是一种融合激光雷达与相机数据的3D物体检测算法，它将激光雷达的数据转换成鸟瞰图的形式同RGB图像数据一起传入到网络中来进行自动驾驶场景下的高精度物体检测。

在这里插入图片描述

2.网络框架

该网络先对输入数据经过特征提取、降维操作以及裁剪之后进行初步的融合，获取场景中包含前景的区域（进行初步的回归），然后将场景中的候选区域投影到鸟瞰图与RGB图后获得待裁剪区域进行裁剪与调整到统一的大小再经过融合获取场景中不同物体的检测类别及其3D物体检测框。

2.1 激光点云数据预处理

AVOD对于激光点云处理相对于MV3D进行了一些简化。去除了强度图，对于点云的高度图划分成M层，即z在(0，2.5)的范围内，以0.5为间隔取得5层，每层中的每个网格取高度最大的点云。

对于密度图的处理是 :
$\frac{log(N+1)}{log(64)})$

2.2 特征提取

网络前端的Feature Extractor对输入数据进行了提取后获得特征图，对比MV3D中的特征提取器（改进的VGG-16），AVOD的特征提取器使用了FPN进行激光点云与RGB图像的特征提取，具有多尺度检测的能力（包含底层与高层的信息），在小物体检测方面相比于MV3D具有一定优势。
在这里插入图片描述

2.3 降低数据量

在经过各自的特征提取后，由通过了1*1的卷积操作降低了通道数。引用原论文中的话：

In some scenarios, the region proposal network isrequired to save feature crops for 100K anchors in GPUmemory. Attempting to extract feature crops directly from
high dimensional feature maps imposes a large memory overhead per input view. As an example, extracting 7 × 7 feature crops for 100K anchors from a 256-dimensional
feature map requires around 5 gigabytes1 of memory assuming 32-bit floating point representation. Furthermore, processing such high-dimensional feature crops with the RPN greatly increases its computational requirements.

这在一定程度上减少了内存开销。

2.4 3D后选区域生成

在送入3D的候选区域生成网络前，由于不同的数据生成的特征图大小不同，网络中采用了Crop and Resize操作，也就是将融合得到的3D检测框分别投影到对激光点云鸟瞰图的特征图和RBG图像中获得带裁剪区域进行裁剪和统一大小的缩放(7*7)，参考自[1611.10012] Speed/accuracy trade-offs for modern convolutional object detectors (arxiv.org)。MV3D使用的则是ROI Pooling，这两种不同的操作都能达到特征图大小统一的作用，但对最终的物体检测哪个效果好，如果有大佬知道还请指出。

进行第一阶段的融合，大致的作用应该是类似于Faster RCNN吧，区分哪些是前景哪些是背景，获取它们的检测框位置，然后使用NMS过滤掉一些框，将剩下的候选区域投影到激光点云鸟瞰图与RGB图像中，进行第二阶段的融合，过程与第一次类似。
在这里插入图片描述

2.5 3D检测框编码

在这里插入图片描述
在MV3D中使用的是8角点的编码方式，论文中说明了8角点相对于轴对齐的编码方式的优势在于可以计算对象的方向，而AVOD中指出8角点的方式不仅冗余而且没有对长方体检测框进行约束，因此提出了使用底面的四个角点的x和y的坐标以及长方体底面距离地面的距离和顶面距离地面的距离，相比于8角点的编码方式减少了参数量，但是在实验中结果中并没有进行对比来显示这种编码方式确实有优势。