AI深度 | 3D人脸识别和双目结构光惯导

article/2025/9/10 13:15:14

文/纽豪斯
发布/AI智道
一文看尽双目摄像、结构光、ToF和激光雷达技术;一文深入了解小觅智能、奥比中光、华捷艾米、的卢深视、Pico和镭神智能;AI赋能2大趋势、4大核心技术。

前言
纽豪斯刚刚完成《AI深度(上) | 3D人脸识别和结构光》,发表到公众号AI智道受到了广泛的关注,读者的反馈很多,有的读者评价说“技术理论部分讲的很清楚、趋势判断也很准确”,有的读者评论关于双目摄像机的典型代表选用的不正确,原因是“双目摄像头现在都是要求有瞳间距,而且两个摄像头之间是越远越准确。”好吧,纽豪斯承认,在AI深度相机的学习道路上,我刚刚上路7天,现学现卖。有一位郭姓读者留言道“第一个视派尔的模组似乎没有双目测距,看图片只是一个IR和一个RGB而已”,看来纽豪斯是碰到专业读者了。
于是纽豪斯赶快咨询了专业人士,也找到了专业论文,在“AI深度(上)”、“AI深度(下)”完成之后赶快补一篇“AI深度(续)”,这让纽豪斯想到了“狗尾续貂”这个成语,前两篇文章不一定是“狗尾”,但这一篇一定是貂皮大衣。

专业人士
纽豪斯找到的专业人士名叫Leo,美国斯坦福大学机械工程博士和计算机硕士双学位,向纽豪斯提供了一篇专业的论文《IMU Integrated Structured-Light Stereo Depth Camera for Mobile Robot Navigation and Obstacle Detection》(为机器人导航和避障而打造的的小觅双目结构光惯导深度相机),当然作者正是Leo本人,让我们一起来领略一下双目结构光惯导技术。
Leo认为传统的双目属于被动的双目,而另外一种是主动双目。被动双目如果同时打两个结构光的斑点的话会发生干涉和光污染的问题,但主动双目就没有这样的问题。这篇文章主要是基于Leo的论文完成的,感谢Leo。

AI深度双目技术背景
在动物世界中,人类从肉体上来说并不是最强大的物种,如果赤手空拳,相信最强大的人也很难和猛兽进行搏击,丝毫不占优势,但在地球的生活环境中看,现实中还不存在人类无法战胜的兽类,因为人和其它动物的最大区别在于人有智慧,语言是人类最强大的工具,因为语言是有能力的,在西方国家很多人都相信世界是由话语(Word)创造的。
人和动物的最大区别主要在于语言,那么人和机器之间最大的区别是什么?这正是人工智能(AI)所要研究的核心问题。人的眼睛能够获得三维的信息,可以准确的认识这个世界,没有复杂的算法、延迟、分辨率,而机器认识这个世界只能通过传感器来认识,用摄像机(相机)模仿人的眼睛是最好的一种方式,这种技术被称之为计算机视觉,也被称之为人工智能。
人工智能的字面含义就是模仿人感知世界的能力,主要就包括计算机视觉、语音(识别)和文字(OCR)识别三种。
目前市面上大多数的计算机视觉技术主要应用于人脸识别,由于视频监控的发展趋势和基础,50多年的发展都是基于RGB监控摄像机的(用专业术语来讲就是2D摄像机),也就是说大家常见的摄像机所拍摄到的视频(实际上是每秒25帧的画面)是平面图像的,没有深度,从而造成机器理解世界产生了巨大的限制,而每个健全的人拥有两个眼睛(双目),故而市面上出现了深度相机(摄像机)采用双目架构,使得机器(姑且称之为计算机)获得三维视觉能力(深度图像),由此视频监控系统进入3D人脸识别世界,而这是大多数人脸识别独角兽不具备的能力。
深度摄像机大行其道必定会成为一种趋势。

立体视觉
立体视觉又称距离知觉或立体知觉。是个体对同一物体的凹凸或对不同物体的远近的反映。视网膜是一个两维的平面,人不仅能感知平面物体,还能感知三维空间中的物体。深度知觉是通过双目视觉实现的。
计算机立体视觉和人眼有类似之处,一般而言,计算机立体视觉,尤其和以仿生学为基础的双目立体视觉由如下几部分组成:
(1) 图像获取。包括场景领域、计时、时间(照明和阴影)、成像形态(包括特殊的遮盖)、分辨率、视野 (field of view, FOV)、摄像机的相对位置。场景的复杂程度受如下因素的影响:遮掩、人工物体(直的边界,平的表面) 、均匀的纹理区域、含有重复结构的区域。
(2) 摄像机模型。就是对立体摄像机组的重要的几何与物理特征的表示形式,它作为一个计算模型,根据对应点的视差信息,用于计算对应点所代表的空间点的位置。摄像机模型除了提供图像上对应点空间与实际场景空间之间的映射关系外,还可以用于约束寻找对应点时的搜索空间,从而降低匹配算法的复杂性,减小误匹配率。
(3) 特征抽取。
(4) 图像匹配。
(5) 深度计算。立体视觉的关键在于左右眼图像中相同特征的匹配,一旦精确的对应点建立起来,距离的计算相对而言只是一个简单的三角计算而已。
总之,提高深度计算精度的途径有三条,各自涉及了一些附加的计算量:半象素精度估计、 加长基线长、内插。

深度检测主要技术方法

在《AI深度(上) | 3D人脸识别和结构光》中,纽豪斯就提到深度相机分为双目、ToF、结构光和激光雷达四种。双目跟结构光一样,都是使用三角测量法根据物体匹配点的视差反算物体距离,只是双目是用自然光,而结构光是用主动光发射特定图案的条纹或散斑。ToF 是通过给目标连续发送光脉冲,然后用传感器接收从物体返回的光,通过探测光脉冲的飞行(往返)时间来得到目标物距离。

小觅双目结构光深度惯导相机
接下来就是纽豪斯要补充完善的双目摄像机的代表产品:小觅智能双目结构光深度惯导相机。
在这里插入图片描述
双目+结构光+惯导的三项融合而成的新型深度相机。从前文对三类视觉深度相机的分析可以看出,ToF和结构光都属于主动光,容易受可见光和物体表面干扰,所以更适合室内和短距离的应用场景,而纯双目适合室内外,测量距离范围大,相差计算方法精度更高鲁棒性更好,缺点是在无纹理的物体(像是白墙)和在全黑情况下不可行。基于此,小觅智能将双目和结构光的优点结合起来,用双目的相差计算方法加上红外的结构光对黑暗和无纹理的情况作辅助,提出了“视觉+结构光+惯性导航”融合的双目结构光深度惯导相机方案。
在这里插入图片描述
(a). 左目的图像, (b). 右目的图像, ©. 计算出来的深度图(用伪彩色表示深度,由近到远的颜色是从红到蓝)

采用双目结构光是考虑到传统的单目结构光容易受光照的影响,在室外环境下,如果是晴天,激光器发出的编码光斑容易太阳光淹没掉,只有在阴天情况下勉强能用。而双目在室内外的情况下都可以使用,使用结构光可以在黑暗情况下和室内缺乏纹理的情况下,用红外结构光照明物体,并且在物体的表面投射出人造的纹理,同时还是使用双目的匹配方法,因为双目的匹配方法鲁棒性更高,而且可以做到亚像素,这样其抗环境干扰能力、可靠性更强,深度图质量有更大提升空间。
纯双目(左)和双目结构光(右)@黑暗环境
纯双目(左)和双目结构光(右)@无纹理环境
此外,结构光方案中的激光器寿命较短,难以满足7×24小时的长时间工作要求,其长时间连续工作很容易损坏。因为单目镜头和激光器需要进行精确的标定,一旦损坏,替换激光器时重新进行两者的标定是非常困难的,所以往往导致整个模块都要一起被换掉。而使用双目结构光的方式,其标定与激光器无关,替换起来就比较简单。
关于双目的算法复杂度和计算量,随着半导体的发展这也得到了解决。小觅对双目的算法进行了硬件加速,可以利用GPU的大规模并行计算来实施,也有用FPGA将算法硬化,同时还和芯片设计厂商进行合作,将双目匹配的算法做到专有芯片ASIC中,这样可以实现高分辨率(720P)、高帧率(30fps、甚至60fps)的深度计算。
在此基础上,小觅还在双目结构光深度相机的基础上再加上了位移加速度传感器(IMU),并将其信号和双目的视频信号做了同步,以满足双目视觉惯导(SLAM)的需求。
普及一下,SLAM (Simultaneous Localization and Mapping),也称为CML (Concurrent Mapping and Localization), 即时定位与地图构建,或并发建图与定位。问题可以描述为:将一个机器人放入未知环境中的未知位置,是否有办法让机器人一边移动一边逐步描绘出此环境完全的地图,所谓完全的地图(a consistent map)是指不受障碍行进到房间可进入的每个角落。

双目视觉惯导SLAM
双目视觉惯导里程计(Stereo VIO)和之前SLAM最大的不同在于两点:首先,VIO在硬件上需要传感器的融合,包括相机和六轴陀螺仪,相机产生图片,六轴陀螺仪产生加速度和角速度。相机相对准但相对慢,六轴陀螺仪的原始加速度如果拿来直接积分会在很短的时间飘走(zero-drift),但六轴陀螺仪的频率很高,至少有200Hz。
图 | 六轴陀螺仪
使用IMU对相机在快门动作期间内估计相机的运动,但是由于CMOS相机的快门时间戳和 IMU 的时间戳的同步比较困难 ,且相机的时间戳不太准确 (自动曝光时间每帧都可能变化,时间戳是在曝光前,曝光中,还是曝光后)。传感器融合是一个趋势,也或者说是一个妥协的结果。主要的原因还是由于单一的传感器不能适用所有的场景,所以通过多个传感器的融合达到理想的定位效果。

双目视觉+IMU的融合方案
视觉传感器在大多数纹理丰富的场景中效果很好,但是对旋转不敏感,IMU长时间使用有非常大的累积误差,但是在短时间内,其相对位移数据又有很高的精度,所以当视觉传感器失效时,融合IMU数据,能够提高定位的精度。
对于短时间内的快速运动,IMU能够提供一些较好的估计。这正是相机的弱点。当运动过快时,(卷帘快门的)相机会出现运动模糊 (小觅的双目采用全局快门),或者两帧之间重叠区域太少以至于无法进行特征匹配,所以纯视觉SLAM需要加大视角以应对快速的运动。而有了IMU,即使在相机数据无效的那段时间内,也能保持一个较好的位姿估计,这是纯视觉SLAM无法做到的。
相比于IMU,相机数据基本不会有漂移。如果相机放在原地固定不动,那么(在静态场景下)视觉SLAM的位姿估计也是固定不动的。所以,相机数据可以有效地估计并修正IMU读数中的漂移,使得在慢速运动后的位姿估计依然有效。
当图像发生变化时,本质上没法知道是相机自身发生了运动,还是外界条件发生了变化,所以纯视觉SLAM难以处理动态的障碍物。而IMU能够感受到自己的运动信息,从某种程度上减轻动态物体的影响。
作为基于视觉识别技术的3D传感器,双目结构光深度惯导相机适用于室内外双重环境,可以应对室外强光环境,识别距离可达30到50米,完全黑暗的室内环境亦可工作。此外,红外主动结构光,可以让双目摄像头完美解决了室内白墙和无纹理物体的难题。“双目+IMU”的惯性导航方案,可为VSLAM的应用提供精准的互补数据,并且相较其他单一方案拥有更高精度和鲁棒性。
基于“视觉+结构光+惯性导航”方案,在陌生环境中,搭载了双目结构光深度惯导相机的移动机器人就可以在自主行走的过程中实时三维重建现场环境的地图,也可实现三维立体避障,充分认知所处环境,让每一移动机器人拥有了一双超人的眼睛。

总结
最后再对三种深度技术进行一个总结,作为下篇总结的补充。

  • TOF原理是传感器发出经调制的近红外光,遇物体后反射,通过计算光线发射和反射时间差或相位差来换算被拍摄物体的距离。
  • 结构光(Structured Light)技术则要相对复杂一些,该技术将编码的光栅或线光源等投射到被测物上,根据它们产生的畸变来解调出被测物的三维信息。
  • 双目视觉则是和人眼一样用两个普通摄像头以视差的方式来计算被测物距离。三种方式各有优缺点,在现有技术条件下各有应用场景。

孰优孰劣,尚待时间检验,还有技术的发展。

参考文献:
L. Pang,“IMU Integrated Structured-Light Stereo Depth Camera for Mobile Robot Navigation and Obstacle Detection”
P. J. Besl, “Active, Optical Range Imaging Sensors”, Machine Vision and Applications (1988) 1:127-152
D. Van Nieuwenhove, W. Van der Tempel, R. Grrotjans, M. Kuijk, “Time-of-flight Optical Ranging Sensor based on a Current Assisted Photonic Demodulator”, Proceedings Symposium, IEEE/LEOS Benelux Chapter, 2006, Eindhoven.
M. Hansard, S. Lee, O. Choi, R. Horaud, “Time-of-Flight Cameras: Principles, Methods and Applications”, Springer Brief in Computer Science, 2012.
A.P.P Jongenelen, D. G. Bailey, A.D. Payne, A.A. Dorrington, D.A. Carnegie, Analysis of Errors in ToF Range Imaging with Dual-Frequency Modulation, IEEE Transactions on Instrumentation and Measurement, Vo. 60, No. 5, May 2011, SSN 0018-9456.
J. Geng, “Structured-Light 3D Surface Imaging: a Tutorial”, Advances in Optics and Photonics 3, 128-160 (2011).
J. Kravanja, et al, “Robust Depth Image Acquisition Using Modulated Pattern Projection and Probabilistic Graphical Models”, Sensors 2016, 16, 1740; doi:10.3390/s16101740
L. Pang, “3D reconstruction of the material surface shape from stereo images of electron micrographs”, Microscopy: Image Acquisition and Processing III, 1996


http://chatgpt.dhexx.cn/article/lIfbim92.shtml

相关文章

3D人脸识别——人脸点云前处理

1. 获取点云与显示点云 博主做项目是用realsense系列获取深度信息的,获得对齐的RGB图和深度图。 获取数据的代码如下: ## License: Apache 2.0. See LICENSE file in root directory. ## Copyright(c) 2017 Intel Corporation. All Rights Reserved.###…

3d人脸识别算法opencv_10行代码实现人脸识别

什么是人脸识别 人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部识别的一系列相关技术,通常也叫做人像识别、面部识别。 目前的人脸识别技术已经非…

3D人脸识别准确率提升,成未来发展趋势

https://www.toutiao.com/a6678896218048823811/ 随着技术升级,生物识别技术已经被应用到越来越多的行业当中,渗透人们生活的方方面面,你的面部、眼睛、步态乃至表情都在告诉识别系统:你是谁。而近些年越来越火的人脸识别更是在证…

2D与3D人脸识别详解

人脸是人体最重要的生物特征之一,而人脸研究主要集中在人脸识别方面,人脸的表达模型分为2D人脸和3D人脸。2D人脸识别研究的时间相对较长,方法流程也相对成熟,在多个领域都有使用,但由于2D信息存在深度数据丢失的局限性,无法完整的表达出真实人脸,所以在实际应用中存在着…

一文读懂3D人脸识别十年发展及未来趋势

来源丨机器之心 人脸识别 是机器学习社区研究最多的课题之一,以 3D 人脸识别为代表的相关 ML 技术十年来都有哪些进展? 这篇文章给出了 答案。 近年来,人脸识别的研究已经转向使用 3D 人脸表面,因为 3D 几何信息可以表征更多的鉴别…

商汤科技3D人脸识别技术加持智能门锁,帮你解放双手

刚刚过去的元旦佳节,很多人选择聚餐聚会,共同迎接新年的到来,或是跟恋人一起度过浪漫的跨年夜。 在外有欢声笑语的氛围,回到家也应该有舒适的惬意。若是来到家门口,还要放下拎着的大包小包年货,腾出手来去…

3D人脸识别

目录 导语 3D人脸基础知识 初识3D人脸 相机模型 3D相机 3D人脸数据 3D人脸相关任务 常见Pipeline 3D人脸识别 3D人脸重建 总结 导语 随着深度学习技术的推进,人脸相关任务研究也跃升为学界和业界的热点。人们所熟知的人脸任务一般包括人脸检测&#xff0…

一文为你详解2D与3D人脸识别有什么区别?

最近业界内刮起了一股“人脸识别安全”的大讨论,小到个人大到超市以及银行,都在使用这个刷脸认证或支付,说它好吧,确实解决了无接触,快速高效等问题,你说它不好吧,也是有原因的,比如…

图像算法之3D人脸识别技术原理概述

随着深度学习技术的进步,面部相关任务的研究也成为学术界和工业界的热门话题。众所周知的面部任务通常包括面部检测,面部识别,面部表情识别等,其主要使用2D RGB面部(通常包括一些纹理信息)作为输入; 3D扫描…

vue 小结

var vm new Vue({el : // 挂载点})string 字符串。indexof(‘x’) 如果含有x 则返回 -1 数组添加:push 数组截取:splice

文件加密软件

在电商年代,互联网给大家的衣食住行、工作造成巨大便捷,随之各种各样电子设备的呈现,客户也开始运用文件加密软件来保障自己的数据。现阶段市场上的免费加密软件诸多,客户都是犹豫不决文件加密软件哪家好用这个难题,因…

第十八节 JS中的正则表达式

复习字符串操作: search    查找 substring   获取子字符串 charAt    获取某个字符 split     分割字符串,获取数组 1 var str abcdefghijk; 2 alert(str.search(b)); //返回1,表示b在字符串中的位置是1,不存…

ansible-playbook部署Docker Swarm集群

通过ansible-playbook,部署Docker Swarm集群。 docker安装目录: /var/lib/dockerdocker命令目录: /usr/bin/dockercompose命令目录: /usr/local/bin/docker-composeweavescope: docker可视化管理工具scope命令目录: …

WebGIS中利用AGS JS+eCharts实现一些数据展示的探索

文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/。 1.背景 eCharts提供了迁徙图、热点图、夜视图等跟地图能够很好的结合起来的数据展示方式。但是如何将eCharts和我们的AGS JS框架以及自身的地图相结合&…

AngularJS所有版本下载地址

AngularJS官网本身采用AngularJS库构建,页面中的AngularJS库通过Google的CDN(内容分发网络)引入,所以国内访问会有问题。 大家可以从下面地址获取AngularJS所以版本: https://code.angularjs.org/ 各种版本应有尽有&a…

视频教程-Web前端进阶-AngularJs4从基础到实战-AngularJS

Web前端进阶-AngularJs4从基础到实战 优就业互联网营销首席讲师 精通各大搜索引擎原理,对SEO有深入的研究和独到见解,擅长站内与站外优化与策略部署。熟悉常用的Web项目开发技术,擅长营销型、成交型网站策划,精通织梦、帝国、word…

arcgis js(二)显示三维地图

1、上一节讲了arcgis js入门与提高(一)加载二维地图arcgis js(一)显示二维地图_郝大大的博客-CSDN博客,本节继续讲如何加载三维地图,与3.x版本不同,ArcGIS API for JavaScript 3.x版本地图都是显…

【九】坐标格网添加以及调整

一、前言 有些小伙伴应该见过上述这种专业的制图,本节主要是针对上述图片中的坐标格网进行讲解。如果添加并且对其进行设置。 二、具体步骤 1、接上前文的内容继续,首先一样添加相关数据并且切换到布局视图。 2、 单击一下数据格网,然后被选…

AngularJS简单入门教学和使用

前端框架千千万&#xff0c;今天我们来学习简单的AngularJS的入门案例和学习&#xff0c;让我们快速掌握和使用 使用步骤 引入js文件&#xff0c;前端框架首先就是引入js脚本&#xff0c;这里可以去官网上进行下载 <script src"../plugins/angularjs/angular.min.j…

js搭建网站 web服务器,AngularJS如何搭建web服务器?angularjs搭建web服务器的详细过程...

本篇文章主要的介绍了关于angularjs启动web服务器的操作&#xff0c;希望能帮到大家&#xff0c;现在开始看文章吧 安装node.js 下载链接 官网地址&#xff1a; https://nodejs.org/en/ 我下的解压版的&#xff0c;直接解压到你想安装的目录中 在我的电脑(右键)→属性→高级系统…