比iPhone X更牛X的三维视觉技术

云锁人工智能 2018-03-24

展开全文

Google人工智能与机器学习首席科学家李飞飞在Google I/O开发者大会表示人工智能将成为“第四次工业革命的驱动力”，它将改变人类生活、工作和沟通的方式。在人工智能的三个阶段“弱人工智能—强人工智能—超人工智能”的发展中，视觉信息的获取是必不可少的，机器从对物体的识别到场景的理解都必须先获取其三维信息以及位置关系。三维视觉将成为人工智能的“杀手级应用”。

在过去十年间，人类在对图像识别和图像标注等基础视觉领域已经取得了重大进展，基于这种二维图像视觉在诸如人脸识别、工业检测、安防以及汽车ADAS等方面得到了广泛的应用，成为人工智能的一些重要落地应用。随着人工智能的发展，二维信息无法满足对真实场景的充分理解，所以各个大厂都在着力研究三维视觉的技术，如Intel的RealSense，Apple的TrueDepth，以及诸多厂家面向无人驾驶的多线激光雷达等，这些技术都在帮助机器获取一个至关重要信息——深度信息，来实现三维人脸识别、手势识别、获知物体间的空间关系，以及视觉导航、路径规划、主动避障等工作。

三维视觉在强人工智能阶段必将是不可获取的组成部分，是机器智能和企业变革的重要技术。接下来我们就三维视觉的技术方案给做一个系统介绍。

比iPhone X更牛X的三维视觉技术

图1 三维视觉技术方案分类

图1列举出了目前三维视觉的主要技术方案，其中三角测距中的非编码方式的方案常见于工业检测领域，这种方案我们暂且不讨论。我们在这一期着重讨论其它几种方式的近距离三维视觉方案。

近距离三维感知设备我们称之为深度相机，其中双目相机即是利用双摄像头模拟人眼，通过计算空间中同一个物体在两个相机成像的视差来获得物体离相机的距离。

而ToF（Time of Flight）即飞行时间法，其测距原理是通过连续发射经过调制的特定频率的光脉冲到被观测物体上，然后接收从物体反射回去的光脉冲，通过探测光脉冲的飞行（往返）时间来计算被测物体离相机的距离。

三角法测距中的采用编码方式的方案业内均定义为结构光方式。结构光法不依赖于物体本身的颜色和纹理，是采用主动投影编码图案（比如散斑、条纹光等）的方法来实现快速鲁棒的匹配特征点，能够获得较高的精度，也大大扩展了适用范围。

各方案在三维数据的精度、获取速度以及弱光环境表现的对比如下：

表1 三种主要的三维视觉技术方案对比

技术方案	双目视觉	结构光技术	飞行时间（ToF）
基本原理	双摄像头模拟人眼	投影条纹或斑点编码进行解算	激光飞行时间
精度	中	高	低
速度	慢	快	快
弱光环境效果	差	好	好

这几种方案中尤以散斑结构光法因iPhone X中使用而被大家所熟知。

比iPhone X更牛X的三维视觉技术

图2 苹果iPhone X的“齐刘海”——TrueDepth系统

iPhone X通过前置点阵投影器（也就是结构光投影仪）将超过30000个肉眼不可见的光点（红外激光散斑点）投影到人脸，再根据红外镜头接收到的反射光点，计算得到人脸三维图。

比iPhone X更牛X的三维视觉技术

图3 散斑结构光法测量人脸三维形貌

这种空间编码方式，是向空间投射了单幅随机的激光衍射斑点，但是由于这些点并不能覆盖空间上所有的区域，势必在某些位置无法获取到三维信息，导致其精度是有一定限制的，通常为毫米级精度，这也是为什么iPhone X只是获取了人脸的大致模型，在其Face ID应用中实际上只是应用了结构光方案判断解锁手机的是一个真实的人，而非平面照片或视频，作为一种活体判断防止被攻击破解的手段。

这类散斑结构光的方案被国内奥比中光、华捷艾米等企业采用。主要应用于体感交互、手势识别、人脸识别活体检测等领域。

那是否有方案可以实现高精度的三维数据呢？答案是肯定的。这就是我们接下来要讲的动态结构光的时间编码方案，此种方案的深度相机的原理如下：

比iPhone X更牛X的三维视觉技术

图4 动态结构光的时间编码方案原理

它同样由一个摄像机和一个结构光投影仪组成，结构光投影仪向被测物体投射多组明暗相间的光栅图像（随时间可调制），摄像机同时拍摄经被测物体表面调制而变形的多组光栅图像，通过一定算法计算出被测物体的三维数据。

这种动态结构光方案的三维视觉其实在工业界早有应用，主要应用在逆向工程、三维检测、三维建模等领域，这就是传统的三维扫描仪，既然将它称为仪器，也就可想而知其体积通常比较大，价格也很昂贵。

比iPhone X更牛X的三维视觉技术

图5 传统的三维扫描仪

那是否存在一种深度相机方案，其精度高，体积小，价格也不那么高呢？答案也是肯定的。这个就是MEMS微振镜的方案（MEMS：微机电系统）。MEMS微振镜是一种将可动结构芯片化的执行器，工作时芯片内部的镜面可以高速摆动，以实现激光束的高速扫描。

比iPhone X更牛X的三维视觉技术

图6 MEMS微振镜

基于MEMS微振镜的深度相机与传统的三维扫描仪最大的区别是结构光投影方式上，三维扫描仪采用DLP、LCOS等进行动态结构光的投影，而此深度相机是采用MEMS微振镜与激光来进行扫描投影。

比iPhone X更牛X的三维视觉技术

图7 动态结构光投影示意图（可以是红光或者红外光源）

采用MEMS微振镜的投影方式，不仅克服了体积和成本上的缺点，同时由于这种投影系统是激光扫描式，投影并无光学放大镜头，也就没有焦距的概念，是一个无需调焦的系统（free-focus projector），这也就使得基于MEMS微振镜深度相机的工作范围要比三维扫描仪要大很多。

比iPhone X更牛X的三维视觉技术

图8 MEMS深度相机扫描原理动态图

比iPhone X更牛X的三维视觉技术

图9 基于MEMS微振镜的深度相机所拍摄的大卫

基于MEMS微振镜的深度相机可以实现亚毫米级，甚至更高的深度精度，相比较同样小体积的散斑静态结构光方案的深度相机，精度提升有至少一个数量级。而相比同样精度的三维扫描仪，其体积小、重量轻、无需调焦等优势特点扩展了高精度三维视觉的应用场景。

以下将结构光的三维视觉方案做一个综合对比：

表2 基于结构光的三维视觉方案对比

投影方式	DLP/LCOS	DOE	MEMS微振镜
典型厂商	Capture 3D、先临三维	Apple、奥比中光	Intel、知微传感（Zhisensor）
结构光类型	动态结构光	散斑（静态结构光）	动态结构光
精度	高	低	高
模块尺寸	很大	小	小
成本	高	低	低
光学镜头	需要（有焦）	不需要	不需要（无焦）
光源	LED	VCSEL	LD
功耗	高	低	低