干货 | 一篇文章讲透三维交互之SLAM空间定位技术

CCI16 2017-09-25

展开全文

日前苹果发布的ARkit 在AR生态圈引起巨大轰动，再一次将Inside-Out Tracking跟踪技术在VR AR中的应用向前推进一步。但是据测后，不少人反应，“配合 ARkit 的 iPhone 7 上实现 AR 效果并达到每秒 60 帧 VR 画面 Inside-out 追踪，是完全有可能的。但头部快速转动就甭想了，画面会不稳定的。”出现以上问题主要在于ARkit 的SLAM跟踪技术还仅限于单目相机和 IMU 传感器融合，双目相机SLAM是否能够取而代之，更优的技术方案何时出现，都还需行业共同探究和推进，在此本文对相关技术进行一一梳理。

SLAM空间定位技术与应用

SLAM（simultaneous localization and mapping）就是同时进行场景的建模和相机自身位置的定位，它的用途就是估计一些设备在场景中的位置和相对运动轨迹。

SLAM即时定位与地图构建，简单的理解就是：

机器在一个完全陌生的环境中，可以依靠视觉和传感器来即时构建周边环境数据。

我们可知，视觉特征的形成原理如下图1，在图1中我们可以看到，一个相机的成像，主要是通过相机观测一个3D点，就可以得到图像。

图1

而运用SLAM方法，主要就是对这些点进行标定，再通过视觉方法，将特征点识别和传感器信号融合到算法里边，重建场景。

空间定位技术，最早是在军事上使用，比如导弹、飞机，需要空中定位位置，优化以后用在智能机器人、无人车和扫地机器人上。VR/AR也是需要用空间定位技术，研发和掌握这些空间定位技术的是这些公司，比如Google Tango，几年前出的Tango平板，还有Microsoft hololens，高通，一些硬件厂商已经拿到他们的参考设计进行适用，效果很好。Apple发布的ARKit，类似的技术还有Facebook，Snapchat，也正在筹备做相关应用。uSens凌感也将通过新近研发的位置追踪，为开发者提供更丰富的工具，来创造真正具有沉浸感的体验。

移动端Inside-Out位置追踪技术演示视频

SLAM空间定位技术/视觉方法

SLAM空间定位技术需要结合视觉和传感器两方面信息。视觉方法可以分很多，比如用激光雷达、双目摄像头、单摄像头、RGBD等。而视觉SLAM方法包含两个模块，一个是Tracking，已知3D点位置；一个是Mapping，更新3D点的位置。同时我们也需要知道两种视觉特征：基于图像特征点的方法，如PTAM, ORB；另一种为直接法，比较像素灰度差，如LSD-SLAM，DSO-SLAM。那么在此基础上，我们将采用两种求解方法：基于滤波的算法和基于优化的算法进行优化。

SLAM空间定位技术/传感器

传感器是实现SLAM的两大基本元素之一，目前常见的几种惯性传感器如陀螺仪，是VRAR领域较为常见的，分别为机械、激光、微机械陀螺仪。

第一种机械陀螺仪，在我们手机端常见，陀螺仪如果高速旋转的话，整个设备旋转。

第二种陀螺仪，激光陀螺仪它的方向是不变的，这样可以得到设备的旋转方向，这种陀螺仪早期在几百年前的轮船里应用比较多，但现在高精度的陀螺仪都是用激光陀螺仪，比如导弹在空中飞行几个小时，但误差只有几百米，或者100米之内。

第三种陀螺仪中间有个激光源，它会向两个方向发射激光。如果这个物体静止不动的话，这两条光线的长度一样，比较这两条光线的相差就是0，如果这个物体旋转的话，这两个光路就会有稍微特别小的变化，中间产生的相差就会有，通过识别相差就能知道整个设备旋转速度。这里有两个扇片，物体旋转的时候不动，通过识别角度就可以知道它的旋转速度。这种微型化的陀螺仪精度会比激光差很多，如果单独用它的话是没法达到结果，所以必须要结合陀螺仪和视觉信息一起进行。

但是目前的传感器有很多问题兹待解决。

第一个：传感器的采样是离散的，而且有漂移，比如图里边连续的线是实际的加速度，但是IMU采样是离散的，所以并没有采样到，所以结果是有误差的；

第二个：IMU得到加速度它是包含重力的，实际上重力产生的加速度是远大于一般的移动时候产生的加速度的，所以说要去掉重力就需要精确估计朝向；

第三个：IMU的位置和相机的位置肯定是不在一起的，它们之间有相对位移，而且由于工业生产的原因，它们俩之间会相差一个很小的角度，一些研究发现，即使角度差一度，对最后整个系统的精度影响也会很大，所以在线标定他们之间的角度和位移；

第四个：相机采样频率大概是60、30，但IMU采样频率很高，一般都是500、800、1000，采样频率、采样时间也是不一样的。

单目 SLAM 与双目SLAM

视觉和传感器的不同结合应用于不同的领域和方向。而ARKit 的 SLAM 技术，是基于单目相机和 IMU 传感器融合的，但单目相机的缺点就是无法得到尺度信息，在进行双目对比时，有着不可更改的硬伤。

从硬件成本来考虑，深度相机成本最高，双目次之，单目最低。与价格相对应的是，硬件性能也随之递减。深度相机能够处理的数据量很大，计算比较复杂；双目可以通过单帧图像得到场景的真实尺度且初始化比较简单，但是由于基线长度限制，对太远的场景初始化不好；单目使用的信息最少，但估算尺度仍需要较高的 IMU精度，跟踪丢失时需要相对较长的时间进行初始化。因此，双目SLAM如想代替单目SLAM，还需进一步优化图像获取的时间、算法处理的时间，还有渲染的时间，渲染结果到最后显示的时间。

小伙伴们如果对SLAM空间定位技术还有疑问，欢迎右下角留言，小编将请最前沿的Inside-out 追踪技术解决方案开发公司——uSens凌感科技技术工程师为大家做出专业解答。