两阶段(two stage)目标检测原理详解 -- RCNN

article/2025/10/4 4:51:23

目录

一、目标检测的任务

二、什么是“两阶段”呢?

三、两阶段算法原理

(二)候选区域算法

(三)边框回归( Bounding Box Regression )

1. 非极大值抑制(Non-Maximum Suppression,NMS)

2. 对候选框进行坐标调整

(三)RCNN模型结构

1. RCNN的模型结构

​​​​​2. R-CNN 总结


         目前目标检测领域的深度学习方法主要分为两类:two stage 的目标检测算法one stage 的目标检测算法

一、目标检测的任务

在图像中把目标物体框出来,主要分为两个:

  1. 定位任务:把物体在图像中的位置检测处理,通常用(x,y,w,h)表示物体位置框,其中x,y是目标的中心点,w,h是目标物体框的长和宽。
  2. 图像分类任务:目标物体是哪种物体,如该物体具体是猫还是狗,还是汽车等。

二、什么是“两阶段”呢?

        两阶段指的是实现检测的方式有主要两个过程,如下:

  •         第一步:先提取物体区域;
  •         第二步:再对区域进行CNN分类识别;

        因此,“两阶段”又称基于候选区域(Region proposal)的目标检测。它是基于深度学习的检测算法的先驱者;代表性算法如下图的RCNN系列(RCNN,Fast RCNN,Faster RCNN)还有SPPNet等。

        RCNN是“两阶段”目标检测中的第一个模型。该算法步骤大致分为两大步骤进行:

  •         1.获取输入图像,提取约候选区域;
  •         2.将每个候选区域的图片缩放到固定大小224x224,输入CNN网络,得到的结果再输入分类器中进行类别的判定。

        两阶段目标检测模型结构:

三、两阶段算法原理

        传统算法模型结构:

        两阶段目标检测模型结构:

(二)候选区域算法

        传统目标检测算法使用“穷举法”来获取候选区域,即暴力的使用滑动窗口从左到右、上到下扫描图片。缺点非常明显,候选区域过多,相邻窗口重复信息大,无效的区域也很多,导致计算量大,检测速度慢。

        RCNN使用“选择性搜索算法”(SS,Selective Search)来获取候选框,具体步骤如下:

  •         (1)图片中的每一个像素作为一组,然后计算每个像素的纹理;
  •         (2)将相近的组合起来形成更大的像素组,然后继续合并各个像素组;
  •         (3)SS选取的检测框大小都不一样,最后,得到不同尺寸的BBox候选框(约2000个)。

        相比传统的穷举法,BBox候选框明显的减少了,在后面步骤的物体分类上减少了很多计算资源。

(三)边框回归( Bounding Box Regression )

        围绕如下2个问题进行算法设计:

  •         1.一张图大约有2000多个候选框,是否有冗余?若存在冗余该如何对多个候选框进行筛选?
    •         2. 筛选过后的候选框是最优的吗?

        经过SS搜索,共有2000多个候选区域,首先需要对每个候选区域进行分类识别:

        如上图所示,每个目标有两三个候选区域,每个候选区域都有目标概率值;原则上,1个物体对应1个候选区域,那么如何去除冗余的候选区域框,保留最好的1个?

        使用非极大值抑制NMS来解决以上问题。

1. 非极大值抑制(Non-Maximum Suppression,NMS)

思路:选取那些邻域里分类数值最高,并且抑制那些分数低的窗口。

 做法:设定阈值(阈值通常设定0.3~0.5 ),比较两两区域的IoU与阈值的关系。

Iou是两个区域的交并比,如下:

            

那么可以如下两个思路来筛选候选框,假设阈值设定0.5:

  • (1)IoU>0.5,表示A框与B框重叠率高,可能是同一个物体,保留上一步计算的分类概率值高的候选框;
  • (2)IoU<0.5,表示A框与B框重叠率不高,可能是两个物体;

例子:假设检测到如下出6个都是人脸的矩形框,目的要找到最好的一个。

  • (1)根据分类器的类别分类概率做排序从小到大的概率分别为A、B、C、D、E、F;
  • (2)从最大概率矩形框F开始,分别判断A~E与F的重叠度IoU是否大于设定的阈值;
  • (3)假设B、D与F的重叠度超过阈值,那么就去除矩形框B、D;并标记第一个矩形框F,是我们保留下来的一个人脸框;
  • (4)从剩下的矩形框A、C、E中,选择概率最大的E,然后判断E与A、C的重叠度,如果A、C的重叠度都大于设定的阈值,那么就去除;并标记E是我们保留下来的第二个矩形框;
  • (5)就这样一直重复,遍历所有,直到找到所有被保留下来的矩形框。

2. 对候选框进行坐标调整

        将最后选出的候选框与目标值(Ground Truth)建立回归方程。如下图:

        红色的框:最终提取的候选区域框;

        绿色的框:目标值, 即真实标注的目标区域。

        目测可判定,红色框定位不准(IoU<0.5), 那么说明红色框没有正确的标志飞机,因此需要对红色框进行微调,使得经过微调后的窗口跟目标值更接近。

        对于窗口,一般使用四维向量(x,y,w,h)表示,分别表示窗口中心点坐标和宽高;寻找一种关系使得输入候选窗口 P 经过映射f得到一个跟真实窗口G^更接近的回归窗口G ̂,使得新的候选区域G ̂更接近真实目标G^,从而提高预测的准确率:

回归方程: 

  • (三)RCNN模型结构

    1. RCNN的模型结构

    如下:

        模块1 :

                (1)采用selective search算法对每个图片提取约2000个候选框;

                (2)再将尺寸变形为227×227的大小【适应AlexNet网络的输入】

        模块2:

                (1)使用AlexNet网络对候选框进行特征提取,每个候选框有4096维特征;

                (2)采用训练好的AlexNet CNN网络进特定样本【如VOC数据集-20个分类类别】下的微调fine-tune;

        模块3:

                (1)对每个候选框的4096维特征进行分类;

                (2)需要为每个类别训练单独的SVM;

        模块4:

                (1)进行边框回归训练。

​​​​​2. R-CNN 总结

        优点:基于传统的手工提取特征的方法,性能大幅提升;

        缺点:但是训练时间很长(84h),测试阶段很慢,一张图片大概16s;R-CNN速度较慢的一个重要原因是卷积特征重复计算量太大,每张图片约有2000区域需计算CNN特征。


http://chatgpt.dhexx.cn/article/JnJWps0k.shtml

相关文章

Apriltag定位原理与测试

Apriltag定位原理 二维码的检测工作的思路是提取一块四边形的区域&#xff0c;这个区域具有比周围亮度更低的特点。这个思路的主要优点是尽可能多的检测出所有可能的二维码&#xff0c;但是极有可能出现 false positive&#xff0c;后续的编码可以对野值进行剔除。 图 1 二维…

如何理解海森堡的「不确定性原理」?

维尔纳海森堡&#xff08;1901&#xff0d;1976&#xff09;&#xff0c;德国物理学家&#xff0c;量子力学创始人之一&#xff0c;“哥本哈根学派”代表性人物。 海森堡提出了著名的“不确定性原理”&#xff1a;一个运动粒子的位置和它的动量不可被同时确定。 我是物理科学…

万用表测不准简单维修

文章目录 1. 起因2. 故障表现3. 组装 1. 起因 这几天装灯暖浴霸&#xff0c;需要用到万用表&#xff0c;有点坏了&#xff0c; 是大一大二上电工电子实验课时候买的万用表&#xff0c;胜利V97&#xff0c;也得有7-8年了&#xff0c;100多块钱。 2. 故障表现 坏的表现是&am…

你也可以看懂,量子力学的困惑,测不准原理 薛定谔的猫 !

量子力学已经是现代物理学的基础学科之一&#xff0c;其影响力越来越大&#xff01;巨大的影响力迫使着人们了解它&#xff0c;可量子世界中的种种奇异现象却挑战着常人的逻辑底线。甚至 让许多物理爱好者也摸不着头脑&#xff0c; 以至于玻尔&#xff08;量子物理学家&#xf…

交易市场中的测不准原理

(图片来源于网络) 众所周知&#xff0c;在物理学中&#xff0c;微观粒子的速度&#xff08;动量&#xff09;和位置是无法同时精确测量的——也就是说&#xff0c;要么我们可以精确知道一个粒子此刻的速度&#xff0c;但是我们就不能知道它具体在哪个位置&#xff1b;要么我们可…

【数字信号处理】卷积和乘法系列3之测不准原理

关注公号【逆向通信猿】更精彩!!! 声明:底部的小广告标签并不是博主所加!! Heisenberg测不准原理 信息在时域中的扩展(尖峰之间的距离)与其在频域中的对应扩展之间的这种关系是Heisenberg不确定性原理的一个例子。时域中的扩展(方差)乘以频域中的扩展具有不能被突破的…

PCIE总线-PCI、PCIE关系及信号定义

PCI(Peripheral Component Interconnect)总线规范在上世纪九十年代由Intel提出。在处理器体系结构中&#xff0c;PCI总线属于局部总线(Local Bus)。局部总线作为系统总线的延伸&#xff0c;主要功能是为了连接外部设备。 处理器主频的不断提升&#xff0c;要求速度更快&#x…

7、PCIE总线-PCI、PCIE关系及信号定义

PCI(Peripheral Component Interconnect)总线规范在上世纪九十年代由Intel提出。在处理器体系结构中&#xff0c;PCI总线属于局部总线(Local Bus)。局部总线作为系统总线的延伸&#xff0c;主要功能是为了连接外部设备。 处理器主频的不断提升&#xff0c;要求速度更快&#x…

PCIe总线了解

转载于&#xff1a;若风飘茫的博客 PCIe总线概述 随着现代处理器技术的发展&#xff0c;在互连领域中&#xff0c;使用高速差分总线替代并行总线是大势所趋。与单端并行信号相比&#xff0c;高速差分信号可以使用更高的时钟频率&#xff0c;从而使用更少的信号线&#xff0c;完…

pcie总线基础知识

PCIe总线概述 随着现代处理器技术的发展&#xff0c;在互连领域中&#xff0c;使用高速差分总线替代并行总线是大势所趋。与单端并行信号相比&#xff0c;高速差分信号可以使用更高的时钟频率&#xff0c;从而使用更少的信号线&#xff0c;完成之前需要许多单端并行数据信号才能…

pci总线

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/huangweiqing80/article/details/83112671 一、Pci的地址域 PCI总线协议中定义了三个不同的地址空间&#xff1a;1、PCI配置空间&#xff1b;2、PCI memory空间&#xff1b…

PCIE总线基本介绍(和PCI总线差异、速率计算、引脚定义)

1、PCI和PCIE的差异 (1)PCIE协议在软件编程上是兼容PCI协议&#xff0c;不同在于PCIE和PCI的控制器&#xff1b; (2)PCIE是差分串行信号线&#xff0c;PCI是电平并行信号线&#xff1b; (3)PCI协议使用INTA#、INTB#、INTC#、INTD#四根中断线来触发终端&#xff0c;PCIE协议没有…

I3C总线技术概述(一)

官方I3C协议规范技术文档中文版 在本篇文章之前&#xff0c;我们通过I2C协议研读&#xff08;一&#xff09;-&#xff08;十一&#xff09;回顾了I2C总线协议&#xff0c;从本篇开始将开展I3C协议的研读。大概分为以下几点&#xff1a; 1、I3C总线技术概述 2、I3C总线协议&…

总线通信协议-PCIe

文章目录 1.简介1.1 总线特点1.2 总线接口1.3 拓扑模式 2. 传输协议3. 小结 1.简介 采用串行同步全双工的传输方式&#xff0c;工作频率可以达到2.5GHz。 1.1 总线特点 代表着传统并行总线向高速串行总线发展的时代的到来为了兼容之前的PCI总线设备&#xff0c;虽然PCIe是一…

PCIe总线的基础知识

与PCI总线不同&#xff0c;PCIe总线使用端到端的连接方式&#xff0c;在一条PCIe链路的两端只能各连接一个设备&#xff0c;这两个设备互为数据发送端和数据接收端。PCIe总线除了总线链路外&#xff0c;还具有多个层次&#xff0c;发送端发送数据时将通过这些层次&#xff0c;而…

总线通信协议-PCI

文章目录 1. 简介1.1 总线特点1.2 总线接口1.3 拓扑模式 2. 传输协议2.1 传输模式2.2 时序图2.3 PCI-X总线基本概念2.4 PCI传输速率 3. 小结 1. 简介 PCI&#xff08;Peripheral Component Interconnect&#xff09;总线协议由Intel在1992年提出&#xff0c;是一种局部并行总线…

什么是I3C总线?它和I2C和SMBus是什么关系?

计算机技术发展十分迅速&#xff0c;三十年前&#xff0c;一间房子大小的小型机的算力&#xff0c;到现在还比不上大家手机CPU的算力。令人吃惊的是&#xff0c;有这么一种38年前的技术&#xff0c;现在还在大家的电脑中运用十分广泛&#xff0c;甚至它的控制器在计算机中的个数…

关于I²C和SPI总线协议

《关于IC和SPI总线协议》 来自&#xff1a;刘建文 | 学术半IT歌文作者&#xff1a;刘建文关键字&#xff1a;8051 数字电子 数据通信永久链接地址&#xff1a;http://arttech.us/y-2011/introduction-to-i%c2%b2c-and-spi-protocols.html postmeta postmeta Tags: 8051, 数字电…

PCI总线及发展历程(详细)总结

目录 一、PCI总线简介二、总线的传输速度表&#xff1a;三、PCI-E简介四、其他相关链接1、PCIe物理层总结-PCIE专题知识&#xff08;一&#xff09;2、PCIe数据链路层图文总结-PCIe专题知识&#xff08;二&#xff09;3、PCIe物理层链路训练和初始化总结-PCIe专题知识&#xff…

PCIe总线协议概述

正所谓&#xff0c;时势造英雄、英雄造时势。是时&#xff0c;PCI总线在PC界已然一统江湖多年&#xff0c;应用已然广泛&#xff0c;PCI的总线已蔚然成风。然&#xff0c;科技日益发展&#xff0c;需求不断膨胀&#xff0c;经过计算机技术10年的发展&#xff0c;包括摩尔定律的…