实时3D物体检测

article/2025/10/16 11:44:38

谷歌发布的MediaPipe Objectron,是一个可以实时检测3D物体检测的模型框架,先在2D图像上检测物体,然后估算出3D坐标。

尽管目前2D物体检测已经相对成熟,但3D检测仍然是个挑战性的问题,主要是缺少大量有效的数据用于训练

获取真实世界的数据

现实世界中,针对3D物体检测的数据集是非常有限的。 为此,Google开发了一个基于增强显示(AR)的数据采集方法。 由于ARCore和ARKit的普及使用,现在大量手机具有增强现实的能力,并且可以在AR应用中提供更多的信息,如摄像头位置,稀疏3D点云,光照估计,平面估计等。

Google开发了一个全新的方法和工具,允许标注者借助AR快速标记物体的3D bounding boxes. 该工具把屏幕分成2部分,左边是2D的视频,叠加了3D bounding boxed, 右边是3D点云数据。 标注者在右边3D视线里给物体标注3D bounding box, 可以实时验证其在左边2D视频里投影的bounding box正确性。

 

AR合成数据

为了增加预测的准确性,通常流行的方法是用合成的数据对真实世界的数据进行互补,但是经常这样做会产生低质量,不真实的数据,并且在图像渲染等方面,需要大量的精力和计算资源。我们的新方法是在AR场景中放置虚拟的物体,这样能够利用摄像头位置,检测到的平面和估计的光照去生成能和实际场景匹配的物体,这样生成的物体能够融合到原有场景,并无缝地契合到背景中。

 

3D物体检测pipeline

我们建立了2个pipeline从一个RGB图像去预测物体的3D bounding box,一个是two-stage,另一个是one-stage, two-stage速度是one-stage的3倍,并且拥有相似的精度, one-stage的擅长检测多个物体,two-stage的擅长检测单个物体。

two-stage pipeline 

two-stage的,在第一个stage 使用一个检测网络在2D图片中检测物体,在第二个stage使用图像裁剪和3D bounding box估计。同时,它计算了下一帧的2D图像的bounding box,这样检测网络不需要每一帧都运行。

2D的物体检测网络我们这里使用了TensorFlow Object Detection, 在 Open Images dataset数据集上训练了。 第二个stage的3D bounding box预测任务可以在高通Adreno 650 GPU上运行达到83FPS.

single-stage pipeline

single-stage backbone使用了encoder-decoder架构, 基于MobileNetV2. 我们采用了多任务学习的方法,联合检测和回归去预测一个物体的形状。形状预测分支任务依据于有什么样的ground truth标注, 比如segmentation分割, 如果训练数据集没有形状信息,这个是可选的。针对检测任务,使用标注的bounding boxes,并对其使用高斯分布,中心点位于bounding boxes中心, 标准差正比于box尺寸。 检测任务的目标是预测物体的中心高斯分布,回归任务预测bounding boxex 8个顶点的2D坐标投影。最后为了获取bounding boxes的3D坐标, 使用了EPnP算法,它可以不借助于关于物体维度的先验知识, 并估算出物体的3D bounding boxes。 该模型足够轻量级,可实时运行在手机上,在Adreno 650  GPU上达到26FPS。

 

 

Detection and tracking

当模型应用于视频的每一帧时会产生抖动, 主要是由于每一帧预测的3D bounding boxes的不稳定性,为了解决这个问题,使用了一个检测网络和跟踪网络, 检测网络不需要每一帧都运行,间隔几帧运行一次,得到9个关键点,包括3D bounding boxes的中心点和8个顶点坐标。跟踪网络每一帧都运行。

Objectron dataset

Google发布了Objectron dataset, 可以下载该数据集,遗憾的是Google并没有发布该模型训练的代码,其推理代码封装打包在mediaPipe项目里。

 

具体可以参见:

https://google.github.io/mediapipe/solutions/objectron

 

 

 

 


http://chatgpt.dhexx.cn/article/XkvqnAnI.shtml

相关文章

物体检测实战:使用 OpenCV 进行 YOLO 对象检测

使用 OpenCV 进行 YOLO 对象检测 本文将教你如何使用YOLOV3对象检测器、OpenCV和Python实现对图像和视频流的检测。用到的文件有yolov3.weights、yolov3.cfg、coco.names,这三个文件的github链接如下: GitHub - pjreddie/darknet: Convolutional Neura…

传统物体检测

传统物体检测 1. 特征2. 模板匹配3. 颜色直方图4. 空间分拣5. 梯度特征6. HOG 特征7. 特征融合8. 搭建分类器8.1 数据标注8.2 数据预处理8.3 训练分类器8.4 交叉验证 9. 滑动窗口9.1 多尺度窗口9.2 Hog子采样窗口搜索(Hog Sub-sampling Window Search) 10. Multiple Detections…

计算机视觉之旅-进阶-物体检测

1. 物体检测概念 计算机视觉中的物体检测是指在图像中检测和定位特定目标对象,它是计算机视觉中一个基本而又重要的问题。 物体检测的目的就是在输入图像中检测所关心的目标对象,并给出其边界框和类别信息。典型的输出包括: - 边界框:表示目标对象在图像中的位置和大小。常用…

物体检测技术的简单介绍

1. 物体检测技术概念 物体检测技术,通常是指在一张图像中检测出物体出现的位置及对 应的类别,主要包括物体类别、 x m i n x_{min} xmin​、 y m i n y_{min} ymin​、 x m a x x_{max} xmax​与 y m a x y_{max} ymax​。它是一项非常基础的任 务&…

Opencv项目实战:05 物体检测

1,效果展示 为此,我专门还去查了查,怎么将视频转化为gif图,不知不觉中,我又多学会了一项技能。 OK!cool,效果很不错,今天需要搭配一些文件,都是可以从官网里找到的,那么我为了方便,专门去学习怎么在GitHub上托管项目,还下载了VScode和Git,我太难受了,如果不是要写…

百万youtube高清视频数据集采集

HD-VILA-100M是什么? HD-VILA-100M是一个大规模、高分辨率、多样化的视频语言数据集,有助于多模态表示学习。 数据统计 该数据集共包含330万个视频,视频质量较高,均衡分布在15个类别中。 下载(Download) 您可以通…

100多万个视频短片数据集来啦!

本文经授权转载自 IEEE电气电子工程师学会(ID: IEEE_China) 想象一下,如果我们必须向外星人解释地球上发生的所有行为。我们可以为他们提供非小说类书籍或BBC纪录片。我们可以尝试口头解释什么是电臀舞。但是,实际上,没…

大数据视频课程汇总

1.由于未经视频版权方授权,很可能会被下架,请各位需要的同仁及时下载,如果被下架,请留言说明。 2.视频为大数据梅峰谷整理,所有视频不加密,不收费,不做机构的宣传品,(因为微信和各大…

视频分类数据集介绍

视频分类数据集 在视频分类项目中,有很多经典的公开数据集,目前主要的数据集如列表所示: 重点介绍三个中等规模的数据集。 1. UCF101 动作识别数据集,从youtube收集而得,共包含101类动作。其中每类动作由25个人做动作…

Python毕业设计 抖音短视频数据分析与可视化 - python 大数据 可视化

文章目录 0 前言1 课题背景2 数据清洗3 数据可视化地区-用户观看时间分界线每周观看观看路径发布地点视频时长整体点赞、完播 4 进阶分析相关性分析留存率 5 深度分析客户价值判断 0 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕…

大数据分析视频全套

一、全套视频总览 二、大数据分析之level2 三、大数据分析之level3 四、大数据分析之level4 五、课程相关资料 具体详细内容及目录结构如下: 注: 大数据分析与大数据开发的区别在于:本套课程涵盖算法更多,需掌握python语言&#…

AI大数据可视化EasyCVR视频融合平台的部署操作流程详解

EasyCVR视频融合平台基于云边端一体化架构,具有强大的数据接入、处理及分发能力,平台支持海量视频汇聚管理,能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,实现视频直播、云端录像、云存储、…

音视频造数据的路

目录 1、多路数据制造 (1)合并多路 (2) 视频修改分辨率 (3) 修改视频码率 (4)修改帧率 2、音频流多声道合成 (1)双声道合并单声道 (2&…

音视频数据介绍

1、前言 在诸如安防系统标准GB28181和“电网视频监控系统及接口”中,固定视频流的传输格式为PS格式。PS流和TS流的概念是在MPEG2的ISO/IEC-13818标准的第一部分“系统”中提出的。其提出的目的是提供MPEG2编码比特的存储与传输方案。 2、先介绍PS封装中的…

互联网海量视频数据的存储

原文链接:http://www.docin.com/p-86312184.html?docfromrrela 一、背景 互联网内容提供方式转变:用户创造内容。视频应用、网络游戏、搜索引擎等互联网衍生业务迅速发展,使得海量数据存储、管理和处理成为当今互联网公司面临的严峻问题。这…

浅析大数据时代下的视频技术发展趋势以及AI加持下视频场景应用

视频技术的发展可以追溯到19世纪初期的早期实验。到20世纪初期,电视技术的发明和普及促进了视频技术的进一步发展。 1)数字化:数字化技术的发明和发展使得视频技术更加先进。数字电视信号具有更高的清晰度和更大的带宽,可以更快地…

音视频数据方案

一点点想法:还请各路大神多多指点! 技术栈: 1、数据存储、数据缓存、数据索引:springboot redis mysql elasticSearch 2、数据抓取:python mysqlBeautifulSoup、Selenium、lxml 3、图片分析:pythonPill…

浅析基于EasyCVR视频技术构建工业园区视频安防大数据监管平台的方案

随着社会经济的快速发展,越来越多的工业园区也正在加快智能化建设的步伐,为入驻企业提供舒适、安全、科技、智慧的办公及生产环境。在建设园区的智能化安防视频监管平台时,需要满足两方面的需求:一是园区内部及周边公共区域安全防…

某马大数据全套视频

某马大数据 01、阶段一 Python大数据开发基础 01、第一章大数据介绍及开发环境 02、第二章 linux命令 03、第三章 MySQL数据库 04、第四章 excel的使用 05、第五章 kettle的使用 06、第六章 数据分析及可视化 07、第七章 大数据框架与数仓基础 08、第八章 数仓实战项目 …

视频观看行为高级分析(大数据分析)

今天介绍一下我们的视频观看行为高级分析功能。 一、观看行为分析 观看行为分析,基于Polyv大数据分析,能够以秒为粒度展示观众如何观看您的视频。 视频观看热力图是单次观看行为的图形化表示,Polyv云点播视频的每一次播放,都会产…