AVOD论文解读

article/2025/11/7 8:08:22

AVOD论文解读

    • 1.概述
    • 2.网络框架
      • 2.1 激光点云数据预处理
      • 2.2 特征提取
      • 2.3 降低数据量
      • 2.4 3D后选区域生成
      • 2.5 3D检测框编码
      • 2.6 朝向估计

论文地址:[1712.02294] Joint 3D Proposal Generation and Object Detection from View Aggregation (arxiv.org)

代码地址:https://link.zhihu.com/?target=https%3A//github.com/kujason/avod

1.概述

​AVOD是一种融合激光雷达与相机数据的3D物体检测算法,它将激光雷达的数据转换成鸟瞰图的形式同RGB图像数据一起传入到网络中来进行自动驾驶场景下的高精度物体检测。

在这里插入图片描述

2.网络框架

​该网络先对输入数据经过特征提取、降维操作以及裁剪之后进行初步的融合,获取场景中包含前景的区域(进行初步的回归),然后将场景中的候选区域投影到鸟瞰图与RGB图后获得待裁剪区域进行裁剪与调整到统一的大小再经过融合获取场景中不同物体的检测类别及其3D物体检测框。

2.1 激光点云数据预处理

AVOD对于激光点云处理相对于MV3D进行了一些简化。去除了强度图,对于点云的高度图划分成M层,即z在(0,2.5)的范围内,以0.5为间隔取得5层,每层中的每个网格取高度最大的点云。

​对于密度图的处理是 :
m i n ( 1.0 , l o g ( N + 1 ) l o g ( 64 ) ) min(1.0, \frac{log(N+1)}{log(64)}) min(1.0,log(64)log(N+1))

2.2 特征提取

​网络前端的Feature Extractor对输入数据进行了提取后获得特征图,对比MV3D中的特征提取器(改进的VGG-16),AVOD的特征提取器使用了FPN进行激光点云与RGB图像的特征提取,具有多尺度检测的能力(包含底层与高层的信息),在小物体检测方面相比于MV3D具有一定优势。
在这里插入图片描述

2.3 降低数据量

​在经过各自的特征提取后,由通过了1*1的卷积操作降低了通道数。引用原论文中的话:

In some scenarios, the region proposal network isrequired to save feature crops for 100K anchors in GPUmemory. Attempting to extract feature crops directly from
high dimensional feature maps imposes a large memory overhead per input view. As an example, extracting 7 × 7 feature crops for 100K anchors from a 256-dimensional
feature map requires around 5 gigabytes1 of memory assuming 32-bit floating point representation. Furthermore, processing such high-dimensional feature crops with the RPN greatly increases its computational requirements.

​这在一定程度上减少了内存开销。

2.4 3D后选区域生成

​在送入3D的候选区域生成网络前,由于不同的数据生成的特征图大小不同,网络中采用了Crop and Resize操作,也就是将融合得到的3D检测框分别投影到对激光点云鸟瞰图的特征图和RBG图像中获得带裁剪区域进行裁剪和统一大小的缩放(7*7),参考自[1611.10012] Speed/accuracy trade-offs for modern convolutional object detectors (arxiv.org)。MV3D使用的则是ROI Pooling,这两种不同的操作都能达到特征图大小统一的作用,但对最终的物体检测哪个效果好,如果有大佬知道还请指出。

​进行第一阶段的融合,大致的作用应该是类似于Faster RCNN吧,区分哪些是前景哪些是背景,获取它们的检测框位置,然后使用NMS过滤掉一些框,将剩下的候选区域投影到激光点云鸟瞰图与RGB图像中,进行第二阶段的融合,过程与第一次类似。
在这里插入图片描述

2.5 3D检测框编码

在这里插入图片描述
​在MV3D中使用的是8角点的编码方式,论文中说明了8角点相对于轴对齐的编码方式的优势在于可以计算对象的方向,而AVOD中指出8角点的方式不仅冗余而且没有对长方体检测框进行约束,因此提出了使用底面的四个角点的x和y的坐标以及长方体底面距离地面的距离和顶面距离地面的距离,相比于8角点的编码方式减少了参数量,但是在实验中结果中并没有进行对比来显示这种编码方式确实有优势。

2.6 朝向估计

在这里插入图片描述
​在MV3D中对于物体朝向的估计是根据物体的长边来大致确定物体的朝向,但是这种方法无法区分相差±180°的情况,同时对于行人的检测这种方法也不太可行。

​因此,针对这种问题AVOD中使用了一种方法,在朝向估计中引入了(cosθ, sinθ),θ限制在(-Π, Π)。这样在朝向相差180°是就会不会出现分歧,都有各自特定的数值。

​如果上述的解读有不足的地方,请大佬指出,感谢。


http://chatgpt.dhexx.cn/article/7lxZOTZm.shtml

相关文章

AVD的使用

前言:这个是AndroidStudio自带的模拟器,虽然功能强大,但是感觉不太好用,安装和使用都比较卡。 个人推荐使用夜神模拟器。 1.打开AndroidStudio,并新建一个工程 2.在菜单栏选择Tools-Android-AVDManager--Create Virt…

复现AVOD

复现过程主要参考https://zhuanlan.zhihu.com/p/87136172 这位博主 之前跟着官方github(https://github.com/kujason/avod) 环境一直配置不好,之后直接使用博主提供的yaml配置文件,之后进行略微调整即可 与博主不同的是&#xf…

AVOD-理解系列(一)

AVOD-理解 本篇用于记载之前阅读的论文avod及其代码,纯属个人个人理解.有误之处欢迎指正! 网络结构 代码流程 1:Feed_dict: feed_dict: 主要就是确定每一个mini_batch里输入图像的各种信息,包括图像的名字,图像的标签文件,图像…

AVOD代码复现

参考文献: https://zhuanlan.zhihu.com/p/86340957 https://zhuanlan.zhihu.com/p/354842740 https://www.guyuehome.com/39798 https://zhuanlan.zhihu.com/p/40271319 1,配置环境 conda create -n avod python3.5 conda install tensorflow-gpu1.3.0…

三十三.智能驾驶之多传感器融合技术: AVOD融合方法

AVOD(Aggregate View Object Detection)和MV3D类似,是一种融合3维点云和相机RGB图像的三维目标检测算法. 不同的是: MV3D中融合了相机RGB图像,点云BEV映射和FrontView映射,而AVOD则只融合相机RGB图像和点云BEV映射. 从网络结果来看,AVOD采用了基于两阶的…

AVOD论文和代码解析

1.介绍 AVOD(Aggregate View Object Detection)算法和MV3D算法在思路上非常相似,甚至可以说,AVOD是MV3D的升级版本 总的来说,和MV3D相比,AVOD主要做了以下一些改进: (1&#xff0…

论文阅读笔记 | 三维目标检测——AVOD算法

如有错误,恳请指出。 文章目录 1. 背景2. 网络结构3. 实验结果 paper:《Joint 3D Proposal Generation and Object Detection from View Aggregation》 1. 背景 AVOD同样是一个two-stage(使用了RPN提取候选框)、anchor-based网络结构。获得较高的召回率…

IC授权卡和复制卡的区别_信用卡小知识【芯片卡磁条卡的区别】

各位老板,企业家大家好,我是小胡,您身边的金融专家。 今天呢跟大家说一下信用卡芯片卡和磁条卡的区别? 信用卡呢,现在普及率非常高的。几乎是人手一张或者是多张。那么大家知道芯片卡和磁条卡的区别到底在哪里&#xf…

IC卡清卡软件的使用

IC卡清卡软件,可以在知道卡片密码的情况下,把卡片恢复出厂密码,清除卡片数据和密码。 如下图 然后读取卡片文件,即卡片dump文件, 然后把卡片放读写器上,点清卡按钮,开始清卡,将清除…

门禁 IC卡 和 ID卡初步了解

目录 一、常用卡介绍 二、复制加密IC卡 1. 工具 2. 方法 3. 最简单的办法 三、IC卡种类介绍 1、接触型IC卡 2、非接触型IC卡 3、串行传输型IC卡 4、并行传输型IC卡 5、存储型IC卡(Memory Card) 6、加密存储型IC卡(Memory Card With Security Logic) 7、智能…

@芯片IC卡也能被复制?冒名卡/克隆卡分分钟复制完成【威 要器妖酒寺起舞酒久吧尔救】

去年底,广西贺州法院审理了一起未成年人盗刷校园IC卡案。被告廖某将已充值的校园IC卡信息复制到另一张空白卡上,在校园内的食堂、超市等进行刷卡消费。并将此方式传给另外4名同乡伙伴,5人共计非法盗刷2万多元。 网购工具 操作简单 据被告廖某…

ID卡复制教程(使用T5577卡复制4100卡)

1 ID卡的常见类型与区别 国内常见的普通ID卡多为EM 4100 或 EM 4102卡,其特点是不可修改ID号。为了复制普通ID卡,通常采用T5577 或 EM4305卡(俗称ID白卡),其特点是内部EEPROM可读可写,修改卡内EEPROM的内容…

教程:利用艾斯PM3GUI软件助手,帮你查IC卡漏洞

测试目的:检查身边的IC卡是否有技术漏洞(门禁卡,会员卡) 测试软件:艾斯PM3GUI软件助手2022版(IC卡信息安全专家)测试设备:PM3easy 优化增强版测试环境:Windows10 我们先拿…

华为手机NFC功能,教你一键复制各种卡

日常生活中,我们经常会携带各种卡,比如:公交卡、门禁卡、银行卡等,但是有时候忘记带了怎么办?或者带了却丢失了。 很多人都知道NFC功能支持充值公交卡,但是它的其他作用你还知道多少个,这期小编…

IC授权卡和复制卡的区别_北京居住证跟居住卡的区别

北京市居住证是小伙伴们在北京居住、作为常住人口享受基本公共服务和便利、通过积分申请登记常住户口的证明。持有居住证就是在京享受基本公共服务和便利的基础,居住登记卡是申领居住证的基础。按照北京市相关规定,在到达北京3日内,小伙伴应主动申报暂住登记,领取居住登记卡…

蓝牙卡复制html,车库蓝牙卡能复制吗

现在小区为了业主小车的安全会在车库上安装门禁系统。那么车库蓝牙卡能复制吗?车库蓝牙卡怎么复制呢?下面就跟着小编一起来看看吧! 车库蓝牙卡能复制吗: 车库蓝牙卡能复制,价格一般在30-60元左右,复制的蓝牙卡与原版外…

普通门禁卡及各类复制卡相关知识

转自: https://nfctool.cn/42 本文带你了解M1卡的数据结构,为以后的破解提供理论基础。同时带你了解各种IC卡,让你对破解和复制有更清晰的目标。请注意,ID卡没有密码,一读一写即可复制,手机手环不能模拟ID卡…

IC卡与ID卡

IC卡与ID卡定义 IC卡全称集成电路卡(Integrated Circuit Card),又称智能卡(Smart Card)它是将一个微电子芯片嵌入符合ISO 7816标准的卡基中,做成卡片形式,芯片含的存储器(ROM、EEPR…

IC授权卡和复制卡的区别_一起来了解苹果礼品卡的区别,解决你购买时的困惑...

要说到现在过节送什么,除了日常的烟、酒之外。Apple礼品卡也是不少年轻人的选择。但是,如果您去购买Apple礼品卡,您会很快发现事情变得有些混乱。因为有多种Apple礼品卡可供选择,它们的名称各不相同,作用也是不同,为了解决你的困惑,我们一起来了解一下Apple礼品卡的区别…

Python 读写IC卡、复制IC卡

本示例使用的发卡器:https://item.taobao.com/item.htm?spma1z10.5-c.w4002-17663462238.11.3614789e318TMs&id615391857885https://item.taobao.com/item.htm?spma1z10.5-c.w4002-17663462238.11.3614789e318TMs&id615391857885 #python通过缩进来表示代…