深度学习——目标定位

article/2025/10/12 14:56:26

目标定位

图片分类任务我们已经熟悉了,就是算法遍历图片,判断其中的对象是不是汽车,这就是图片分类。这节课我们要学习构建神经网络的另一个问题,即定位分类问题。这意味着,我们不仅要用算法判断图片中是不是一辆汽车,还要在图片中标记出它的位置,用边框或红色方框把汽车圈起来,这就是定位分类问题。其中“定位”的意思是判断汽车在图片中的具体位置。

图片分类问题你已经并不陌生了,例如,输入一张图片到多层卷积神经网络。这就是卷积神经网络,它会输出一个特征向量,并反馈给 softmax 单元来预测图片类型。如果你正在构建汽车自动驾驶系统,那么对象可能包括以下几类:行人、汽车、摩托车和背景,这意味着图片中不含有前三种对象,也就是说图片中没有行人、汽车和摩托车,输出结果会是背景对象,这四个分类就是 softmax 函数可能输出的结果。
这就是标准的分类过程,如果你还想定位图片中汽车的位置,该怎么做呢?我们可以让神经网络多输出几个单元,输出一个边界框。具体说就是让神经网络再多输出 4 个数字,标记为𝑏𝑥,𝑏𝑦,𝑏ℎ𝑏𝑤,这四个数字是被检测对象的边界框的参数化表示。
我们先来约定本周课程将使用的符号表示,图片左上角的坐标为(0,0),右下角标记为(1,1)。要确定边界框的具体位置,需要指定红色方框的中心点,这个点表示为**(𝑏𝑥,𝑏𝑦)**,边界框的高度为𝑏ℎ,宽度为𝑏𝑤。因此训练集不仅包含神经网络要预测的对象分类标签,还要包含表示边界框的这四个数字,接着采用监督学习算法,输出一个分类标签,还有四个参数值,从而给出检测对象的边框位置。
在这里插入图片描述

Q:如何为监督学习任务定义目标标签 ?
A:请注意,这有四个分类,神经网络输出的是这四个数字和一个分类标签,或分类标签出现的概率。目标标签𝑦的定义如下:
在这里插入图片描述
它是一个向量,第一个组件𝑝𝑐表示是否含有对象,如果对象属于前三类(行人、汽车、摩托车),则𝑝𝑐 = 1,如果是背景,则图片中没有要检测的对象,则𝑝𝑐 = 0。我们可以这样理解𝑝𝑐,它表示被检测对象属于某一分类的概率,背景分类除外。如果检测到对象,就输出被检测对象的边界框参数𝑏𝑥、𝑏𝑦、𝑏ℎ𝑏𝑤。最后,如果存在某个对象,那么𝑝𝑐 = 1,同时输出𝑐1、𝑐2𝑐3,表示该对象属于 1-3 类中的哪一类,是行人,汽车还是摩托车。

example
我们假设图片中只含有一个对象,所以针对这个分类定位问题,图片最多只会出现其中一个对象。
假如这是一张训练集图片,标记为𝑥,即上图的汽车图片。而在𝑦当中,第一个元素𝑝𝑐 = 1,因为图中有一辆车,𝑏𝑥、𝑏𝑦、𝑏ℎ和𝑏𝑤会指明边界框的位置,所以标签训练集需要标签的边界框。图片中是一辆车,所以结果属于分类 2,因为定位目标不是行人或摩托车,而是汽车,所以𝑐1 = 0,𝑐2 = 1,𝑐3 = 0,𝑐1、𝑐2和𝑐3中最多只有一个等于 1。
这是图片中只有一个检测对象的情况,如果图片中没有检测对象呢?如果训练样本是这样一张图片呢?
这种情况下,𝑝𝑐 = 0,𝑦的其它参数将变得毫无意义,这里我全部写成问号,表示“毫无意义”的参数,因为图片中不存在检测对象,所以不用考虑网络输出中边界框的大小,也不用考虑图片中的对象是属于𝑐1、𝑐2和𝑐3中的哪一类。
针对给定的被标记的训练样本,不论图片中是否含有定位对象,构建输入图片𝑥和分类标签𝑦的具体过程都是如此。这些数据最终定义了训练集。
在这里插入图片描述

神经网络的损失函数
其参数为类别𝑦和网络输出𝑦^,如果采用平方误差策略,则𝐿(𝑦\^ , 𝑦) = (𝑦\^1 − 𝑦1)2 + (𝑦\^2 − 𝑦2)2 + ⋯ (𝑦\^8 − 𝑦8)2,损失值等于每个元素相应差值的平方和。
如果图片中存在定位对象,那么𝑦1 = 1,所以𝑦1 = 𝑝𝑐,同样地,如果图片中存在定位对象,𝑝𝑐 = 1,损失值就是不同元素的平方和
另一种情况是,𝑦1 = 0,也就是𝑝𝑐 = 0损失值是(𝑦1^ − 𝑦1)2,因为对于这种情况,我们不用考虑其它元素,只需要关注神经网络输出𝑝𝑐的准确度


http://chatgpt.dhexx.cn/article/QPyDVjuW.shtml

相关文章

目标检测及目标定位

一、概述 本文是关于目标检测后根据物体的坐标来确定物体所处的区域,适用于需要根据物体在图像中的位置来分别判断的情况,而且对应的是YOLOv5模型。YOLOv5目标检测的内容可以看看我之前的一篇文章YOLOv5训练自己的数据集_ONEPIECE_00的博客-CSDN博客 本…

一、目标定位

1、目标定位是要求图像中只有一个目标,则构建这个目标的位置信息,如一个网络输出8个值,一个是是否有目标的pc,4个目标位置信息的bx,by,bh,bw,其中bx,by为目标中心点坐标,bh,bw为目标的高和宽,最…

3-1 目标定位

目标定位( Object localization) 图片分类任务就是算法遍历图片,判断其中的对象是不是某个指定的类别,这就是图片分类。 定位分类问题。意味着我们不仅要用算法判断图片中是不是一辆汽车,还要在图片中标记出它的位置&a…

深度学习(十五):目标定位 Object Localization

这是一系列深度学习的介绍,本文不会涉及公式推导,主要是一些算法思想的随笔记录。 适用人群:深度学习初学者,转AI的开发人员。 编程语言:Python 参考资料:吴恩达老师的深度学习系列视频 吴恩达老师深度学习…

第二十五节,初步认识目标定位、特征点检测、目标检测

一 目标定位(单个物体) 对象检测,它是计算机视觉领域中一个新兴的应用方向,相比前两年,它的性能越来越好。在构建对象检测之前,我们先了解一下对象定位,首先我们看看它的定义。 图片分类任务我们已经熟悉了&#xff0c…

目标定位和特征点检测

1. 目标定位 目标检测是计算机视觉领域中的一个新兴的应用方向,在构建目标检测之前,我们首先了解一下object localization目标定位。 前面说过的图片分类任务就是算法遍历图片,判断其中的对象是不是汽车,主要是图片分类 这里所…

目标定位(Object localization)

来源:Coursera吴恩达深度学习课程 在构建目标检测之前,建议先了解一下目标定位(object localization)。 在上图的这个例子中,图片分类(image classification)不仅要判断图片中是不是一辆汽车&a…

学习云计算从哪里入手

学习云计算从哪里入手 1、 学习思路 a) 学习前建议先了解 i. 什么是云计算 ii. 云计算对当前的商业模式有什么影响 iii. 云计算所涉及到的技术 iv. 云计算的现状 b) 云计算可以分为广义的和狭义的两类&…

云计算学习(1)

原文来自于HCIA-Cloud Computing 华为云计算工程师认证 --hsyl007学习笔记收集整理 ,个人博客地址 http://hsyl007.work/zblog/ 什么是云计算 云计算就在身边 将资源准备好,通过特定技术随时随地使用这些资源去执行特定任务的方式基本就属于云计算类…

大数据与云计算学习(2)

四、分布式数据库HABSE 1、请阐述HBase和传统关系数据库的区别 正确答案: 我的答案: (1)数据类型:关系数据库采用关系模型,具有丰富的数据类型和存储方式,HBase则采用了更加简单的数据模型&a…

云计算学习笔记(一):云计算基础

文章转载只能用于非商业性质,且不能带有虚拟货币、积分、注册等附加条件。转载须注明出处http://blog.csdn.net/flowingflying以及作者恺风Wei 本系列将对云计算进行学习,目前资料来自《云计算-概念、技术与架构》(第一作者:Tomas…

(一)云计算技术学习--基础概念

目录 Linux的用户管理 Yum 命令 Python SELinux vsftpd etcd Session、Cookie、Token LNMP VMware Docker Kubernetes(K8S) Centos CentOS(Community Enterprise Operating System,中文意思是社区企业操作系统)是Linux发行版之一…

云计算学习路线

文章目录 一、什么是云计算二、虚拟化2.1 云计算与虚拟机基础2.1.1 云计算底层就是虚拟化 or 物理机2.1.2【重点】企业级虚拟化架构 (VRM CNA 存储)(1)架构分析(2)心跳 cluster(3)…

云计算的学习(四)

四、云计算中的存储基础知识 1.云计算虚拟化中的存储架构 ①虚拟化存储 在虚拟化存储架构中,最底层为物理磁盘。 底层的硬件组成存储池,存储池分为NAS存储和SAN存储;NAS存储需要文件系统;SAN存储需要对存储池进行逻辑划分产生逻…

云计算的学习(三)

三、云计算中的网络基础知识 1.虚拟化中网络的架构 1.1虚拟化中网络的架构 二层交换机作为接入交换机使用,三层交换机可以作为汇聚交换机或核心交换机,在抛开网络安全设备时,路由器直接连接在互联网上。 1.2广播和单播 物理服务器内部主要…

云计算基础:云计算运用越来越广泛,我们应该如何去学习云计算

随着时代的发展,云计算越来越普及,越大众化,使用的人越来越多,我们应该如何去学习这门技术呢?这篇文章我们就来介绍如何学习我们的云计算。 学前介绍: 学前介绍 学习资料:HedEX Lite、产品文档、笔记、P…

云计算学习内容

2021.12.4 云技术 --- 云计算---分布式计算 云储存---百度网盘 计算机技术 抽象语---电信号 抽象语言---编码 应用层 编码---二进制 表示层 二进制---电信号 介质(硬件)访问控制层 处理电信号 物理层 通信技术 1946年2月14日 1876年---贝…

云计算的学习(五)

五、虚拟化特性介绍 1.集群特性 1.1HA HA(Hith Available,高可用特性),克服单台主机的局限性,当一台服务器损坏,运行在损坏服务器上的虚拟机会自动迁移到其他运行状态正常的服务器上,整个迁移过程用户无感…

云计算的学习(六)

六、云计算的发展趋势 1.云计算相关领域介绍 1.1物联网 物联网来源于互联网,是万物互联的结果,是人和物、物和物之间产生通信和交互。 物联网主要技术: RFID技术(射频识别技术)传感器技术嵌入式系统技术 1.2大数据…

大数据与云计算学习(1)

大数据学习 一、大数据概述: 1、大数据概念和特征。 正确答案: 大数据意指一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集 数据量大(Volume):存储的数据量巨大,PB级别是常态,因…