目标定位和检测系列(1):一些基本概念

article/2025/10/12 13:37:19

最近开始学习深度学习中的定位和检测任务。本来打算直接看论文,却发现文章中的的很多基本概念都搞不清楚,于是就自己先梳理了一些定位和检测任务的基本概念。(内容主要来自斯坦福大学的CS231课程、吴恩达的deeplearning.ai卷积部分,这两门课程都可以在网易云课堂里找到汉化版

识别、定位、检测和分割

识别和定位:针对单个目标的任务,识别就是给定一张图片,要让计算机告诉你图片中是什么。而定位任务不仅要识别出图像中是什么,还要给出目标在图像中的位置信息。简单的说,就是用一个矩形框把识别的目标框出来(有时候也有多个固定数量的目标)。而我们通常采用两种方式在图像中表示一个矩形框:
(1) (x1, y1, x2, y2): 即给出矩形框左上角和右下角的坐标
(2) (x1, y1, w, h):即给出矩形框的左上角坐标和矩形框的长宽。
总的的来说,不管用哪种方法表示,我们都至少需要4个值来定位出图像中的一个目标,如果一副图像中包含C个目标,那我们至需要4*C值来定位所有目标(这里不包括用于识别的类别标签)。

检测和分割:针对一幅图像中有多个目标(数量不固定)的情况。检测任务要尽可能多的将图像中的目标用矩形框定位出来,相当于对多个目标的定位。而分割要求更严格,不再是用矩形框框出目标,而是要从像素层面上将目标和背景完全分离出来。分割的结果往往是找出目标的轮廓线。
具体如下图(图片来自斯坦福CS231课程PPT):
detection

定位任务评估方法:Intersection over Union (IoU)

IoU用来衡量模型最终输出的矩形框或者测试过程中找出的候选区域(Region Proposal)与实际的矩形框(Gound Truth)的差异程度,定义为两者交集和并集的比值。通常我们将这个阈值指定为0.5,即只要模型找出来的矩形框和标签的IoU值大于0.5,就认为成功定位到了目标。


IoU

目标定位的两种思路

看作回归问题。对于单个目标的定位,比较简单的思想就是直接看作是关于目标矩形框位置的回归问题,也就是把刻画矩形框位置信息的4个参数作为模型的输出进行训练,采用L2损失函数。对于固定的多个目标定位,也采用类似的方法,只不过输出由4个变成4*C个,C为需要定位的目标的类别数。这样,完整的识别定位问题的损失函数由两部分组成:第一部分是用于识别的损失,第二部分是用于定位产生的损失。显然这种方法对于目标数量固定的定位问题比较容易,当数量不定时(比如检测任务)就不适用了。

滑动窗口法。这种方法的一个典型代表是overFeat模型,它用不同大小的矩形框依次遍历图片中所有区域,然后在当前区域执行分类和定位任务,即每一个滑过的区域都会输出一个关于目标类别和位置信息的标签,最后再把所有输出的矩形框进行合并,得到一个置信度最高的结果。这种方法其实和我们人的思维很相似,但是这种方法需要用不同尺度的滑动框去遍历整幅图像,计算量是可想而知的。

目标检测的两种思路

一种思路就是上面定位问题提到的滑动窗口法。还有一种是基于候选区域的检测方法。简单地说,因为用滑动窗口法需要的计算量太大了,如果能够只针对其中的一部分区域进行分类监测,那效率必然会提高很多。于是这种方法第一步就是先基于原图像生成2000个左右的候选框,然后在这些候选框上分别进行分类和定位操作,最后再把所有的结果汇总到一起。这类方法典型代表是R-CNN系列方法。

选择性搜索(selective search)

上面提到基于候选框的目标检测需要先产生2000个左右的候选区域,而产生这些区域用的最多的方法是选择性搜索。算法过程大致如下:
(1) 生成初始区域集合
(2) 计算区域集合中所有相区域的相似度(相似度综合考虑了颜色、纹理、尺寸和空间交叠)
(3) 合并相似度最高的两个区域,并移除所有与这两个区域有关的区域
(4) 重新计算合并的区域和其他所有区域的相似度并执行合并过程直到结束

非极大值抑制(Non-Maximum Suppression)

上面我们提到,在目标检测的时候,因为我们是在多个区域上分别执行的,最终必然会产生大量的候选框。而我们希望得到一个最好的框来定位目标的位置。而非极大值抑制完成的就是抑制冗余的矩形框,保留最优框的过程。

具体来说,对于某一个目标,我们的模型框出了很多候选框,每一矩形框都会有一个对应的类别分类概率,我们将他们从大到小排序,然后舍弃掉与最大概率的矩形框相似度高的矩形框(IoU值大于设定的阈值),保留剩下来的矩形框。

目标检测评价指标:mean average precision (mAP)

这里涉及到两个概念:查准率(precision)和查全率(recall)因为对于目标检测任务,我们往往需要在一张图中检测多个目标。对于每一个目标都可以计算测试的查准率和查全率,通过选用不同的阈值进行测试实验,可以得出多组查准率和查全率数据,利用这些数据可以得到一条P-R曲线,而曲线下包围的面积就表示average precision (AP),也就是说,这个值越大,说明模型的综合性能越好。而对于多个目标,我们计算所有目标AP的平均值作为目标检测最终的性能评价指标即mean average precision (mAP)


http://chatgpt.dhexx.cn/article/OMCussIh.shtml

相关文章

OpenCV技巧篇——多目标视觉定位(以飞镖定位为例)

OpenCV技巧篇【1】——多目标视觉定位(以飞镖定位为例) 1、针对问题 多目标视觉定位是指通过计算机视觉技术对一张图片中的多个目标进行识别和定位的过程。本篇将以对飞镖定位为例,提出一个简单有效的多目标定位技巧,最终实现如…

目标定位算法(二)之基于测距的定位算法

文章目录 基于测距的定位算法1.最小二乘原理2.最小二乘定位算法3.基于RSSI测距的定位算法4.基于TOA/TDOA的目标定位算法1)基于TOA测距2)基于TDOA测距 基于测距的定位算法 非测距的定位算法往往误差较大,提高精度往往依赖于密集的观测站部署。…

YOLO v5与双目测距结合,实现目标的识别和定位测距

YOLO v5与双目测距结合,实现目标的识别和定位测距 1、首先安装YOLO v52、数据集的标定3、双目测距代码的单独运行调试4、YOLO v5与双目测距的代码的结合5、最终识别测距效果6、代码下载调试运行7、最终演示视频欢迎各位点赞投币收藏哦🤣🤣&am…

单目视觉的运动目标跟踪定位

[转] http://www.leiphone.com/news/201704/z87wjT8j9s94tMnG.html 市场上空间定位的技术方案分为单目、双目以及激光雷达三大阵营,其中激光雷达由于成本高昂市场接受度较低,而在都是基于计算机视觉的单目和双目中,双目则显得更受欢迎。在国内…

目标定位

声明:本文引用吴恩达教授的DeepLearning课程内容。 图像分类:图片分类问题并不陌生,例如,输入一张图片到多层卷积神经网络。这就是卷积神经网络,它会输出一个特征向量,并反馈给 softmax 单元来预测图片类型…

目标定位与检测

学习笔记仅用作自己复习 https://b23.tv/JAqvgA Object Recognition Object Detection Object Localization 位置表示,x,y中心点坐标,w宽度,h高度,就可以得到矩形框的范围。(先找中心点再得到矩形框) 黄色全连接层是…

定位目标地理位置

获取目标地理位置 一、GPS简介及分布二、定位工具:Seeker三、反向代理:Ngrok四、实战:获取目标地理位置1.运行 seeker2.上传 ngrok3.短链接伪装4.转发链接 一、GPS简介及分布 物理位置定位:根据P的定位不准确,容易被欺…

目标定位算法(四)之移动目标定位算法

文章目录 移动目标定位算法1.移动目标计算机仿真建模2.基于距离观测的运动目标定位3.纯方位角的运动目标定位 移动目标定位算法 实时探测目标并对目标进行实时定位。 1.移动目标计算机仿真建模 假定目标做匀速直线运动,第i个观测站的位置为(x,y),目标…

目标定位跟踪系统概述

一、观测系统:目标、观测站、坐标系。 观测站如雷达、声纳等传感器。坐标系:二维、三维直角坐标系(描述确定位置);极坐标系(r,cita)、球坐标系(r,cita,fai)(利用角度描述位置&#x…

目标定位算法(三)之基于角度的定位算法

文章目录 基于角度测量的定位算法1.双战角度定位2.三角测量法定位 基于角度测量的定位算法 又叫纯方位目标定位,它的测量信息是目标与观测站之间的角度,包括方向角和俯仰角等。 1.双战角度定位 例:有两个观测站,其中A观测站的位…

目标检测之目标定位

目标检测是计算机视觉领域中一个新兴的应用方向,相比前两年,它的性能越来越好。在构建对象检测之前,我们先了解一下对象定位,首先我们看看它的定义。 图片分类任务我们已经熟悉了,就是算法遍历图片,判断其中…

深度学习——目标定位

目标定位 图片分类任务我们已经熟悉了,就是算法遍历图片,判断其中的对象是不是汽车,这就是图片分类。这节课我们要学习构建神经网络的另一个问题,即定位分类问题。这意味着,我们不仅要用算法判断图片中是不是一辆汽车&…

目标检测及目标定位

一、概述 本文是关于目标检测后根据物体的坐标来确定物体所处的区域,适用于需要根据物体在图像中的位置来分别判断的情况,而且对应的是YOLOv5模型。YOLOv5目标检测的内容可以看看我之前的一篇文章YOLOv5训练自己的数据集_ONEPIECE_00的博客-CSDN博客 本…

一、目标定位

1、目标定位是要求图像中只有一个目标,则构建这个目标的位置信息,如一个网络输出8个值,一个是是否有目标的pc,4个目标位置信息的bx,by,bh,bw,其中bx,by为目标中心点坐标,bh,bw为目标的高和宽,最…

3-1 目标定位

目标定位( Object localization) 图片分类任务就是算法遍历图片,判断其中的对象是不是某个指定的类别,这就是图片分类。 定位分类问题。意味着我们不仅要用算法判断图片中是不是一辆汽车,还要在图片中标记出它的位置&a…

深度学习(十五):目标定位 Object Localization

这是一系列深度学习的介绍,本文不会涉及公式推导,主要是一些算法思想的随笔记录。 适用人群:深度学习初学者,转AI的开发人员。 编程语言:Python 参考资料:吴恩达老师的深度学习系列视频 吴恩达老师深度学习…

第二十五节,初步认识目标定位、特征点检测、目标检测

一 目标定位(单个物体) 对象检测,它是计算机视觉领域中一个新兴的应用方向,相比前两年,它的性能越来越好。在构建对象检测之前,我们先了解一下对象定位,首先我们看看它的定义。 图片分类任务我们已经熟悉了&#xff0c…

目标定位和特征点检测

1. 目标定位 目标检测是计算机视觉领域中的一个新兴的应用方向,在构建目标检测之前,我们首先了解一下object localization目标定位。 前面说过的图片分类任务就是算法遍历图片,判断其中的对象是不是汽车,主要是图片分类 这里所…

目标定位(Object localization)

来源:Coursera吴恩达深度学习课程 在构建目标检测之前,建议先了解一下目标定位(object localization)。 在上图的这个例子中,图片分类(image classification)不仅要判断图片中是不是一辆汽车&a…

学习云计算从哪里入手

学习云计算从哪里入手 1、 学习思路 a) 学习前建议先了解 i. 什么是云计算 ii. 云计算对当前的商业模式有什么影响 iii. 云计算所涉及到的技术 iv. 云计算的现状 b) 云计算可以分为广义的和狭义的两类&…