动作捕捉系统

有趣的永 2016-12-21

展开全文

不同的动作捕捉系统依照的原理不同，系统组成也不尽相同。总体来讲，动作捕捉系统通常由硬件和软件两大部分构成。硬件一般包含信号发射与接收传感器、信号传输设备以及数据处理设备等；软件一般包含系统设置、空间定位定标、运动捕捉以及数据处理等功能模块。信号发射传感器通常位于运动物体的关键部位，例如人体的关节处，持续发出的信号由定位传感器接收后，通过传输设备进入数据处理工作站，在软件中进行运动解算得到连贯的三维运动数据，包括运动目标的三维空间坐标、人体关节的6自由度运动参数等，并生成三维骨骼动作数据，可用于驱动骨骼动画，这就是动作捕捉系统普遍的工作流程。

系统分类及简介/动作捕捉系统编辑

动作捕捉系统种类较多，一般地按照技术原理可分为：机械式、声学式、电磁式、惯性传感器式、光学式等五大类^[1] ，其中光学式根据目标特征类型不同又可分为标记点式光学和无标记点式光学两类。近期市场上出现所谓的热能式动作捕捉系统，本质上属于无标记点式光学动作捕捉范畴，只是光学成像传感器主要工作在近红外或红外波段。

机械式动作捕捉系统

机械式动作捕捉系统图册

依靠机械装置来跟踪和测量运动轨迹。典型的系统由多个关节和刚性连杆组成，在可转动的关节中装有角度传感器，可以测得关节转动角度的变化情况。装置运动时，根据角度传感器所测得的角度变化和连杆的长度，可以得出杆件末端点在空间中的位置和运动轨迹。X-1st是这类产品的代表，其优点是成本低，精度高，采样频率高，但最大的缺点是动作表演不方便，连杆式结构和传感器线缆对表演者动作约束和限制很大，特别是连贯的运动受到阻碍，难以实现真实的动态还原。

声学式系统图册

声学式动作捕捉系统

一般由发送装置、接收系统和处理系统组成。发送装置一般是指超声波发生器，接收系统一般由三个以上的超声探头阵列组成。通过测量声波从一个发送装置到传感器的时间或者相位差，确定到接受传感器的距离，由三个呈三角排列的接收传感器得到的距离信息解算出超声发生器到接收器的位置和方向。这类产品的典型生产厂家有Logitech、SAC等，其最大优点是成本低，但缺点是精度较差，实时性不高，受噪声和多次反射等因素影响较大。

电磁式动作捕捉系统

一般由发射源、接收传感器和数据处理单元组成。发射源在空间产生按一定时空规律分布的电磁场；接收传感器安置在表演者身体的关键位置，

电磁式系统图册

随着表演者的动作在电磁场中运动,接收传感器将接收到的信号通过电缆或无线方式传送给处理单元，根据这些信号可以解算出每个传感器的空间位置和方向。Polhemus和Ascension公司是这类产品生产商的代表，其最大特点是使用简单、鲁棒性和实时性好，缺点是对金属物体敏感，金属物引起的电磁场畸变对精度影响大，采样率较低，不利于快速动作的捕捉，线缆式的传感器连接同样对动作表演形成束缚和障碍，不利于复杂动作的表演。

惯性式系统图册

惯性传感器式动作捕捉系统

由姿态传感器、信号接收器和数据处理系统组成。姿态传感器固定于人体各主要肢体部位，通过蓝牙等无线传输方式将姿态信号传送至数据处理系统，进行运动解算。其中姿态传感器集成了惯性传感器、重力传感器、加速度计、磁感应计、微陀螺仪等元素，得到各部分肢体的姿态信息，再结合骨骼的长度信息和骨骼层级连接关系，计算出关节点的空间位置信息。代表性的产品有Xsens、3D Suit等，这类产品主要的优点是便携性强，操作简单，表演空间几乎不受限制，便于进行户外使用，但由于技术原理的局限，缺点也比较明显，一方面传感器本身不能进行空间绝对定位，通过各部分肢体姿态信息进行积分运算得到的空间位置信息造成不同程度的积分漂移，空间定位不准确；另一方面原理本身基于单脚支撑和地面约束假设，系统无法进行双脚离地的运动定位解算；此外，传感器的自身重量以及线缆连接也会对动作表演形成一定的约束，并且设备成本随捕捉对象数量的增加成倍增长，有些传感器还会受周围环境铁磁体影响精度。

光学式动作捕捉系统

基于计算机视觉原理^[2]^[3] ，由多个高速相机从不同角度对目标特征点的监视和跟踪来完成运动捕捉的任务。理论上对于空间中的任意一个点，只要它能同时为两部相机所见，就可以确定这一时刻该点在空间中的位置。当相机以足够高的速率连续拍摄时，从图像序列中就可以得到该点的运动轨迹。这类系统采集传感器通常都是光学相机，不同的是目标传感器类型不一，一种是在物体上不额外添加标记，基于二维图像特征或三维形状特征提取的关节信息作为探测目标，这类系统可统称为无标记点式光学动作捕捉系统，另一种是在物体上粘贴标记点作为目标传感器，这类系统称为标记点式光学动作捕捉。
无标记点式光学动作捕捉^[4] 原理大致有三种：第一种是基于普通视频图像的运动捕捉，通过二维图像人形检测提取关节点在二维图像中的坐标，

无标记点式光学系统图册

再根据多相机视觉三维测量计算关节的三维空间坐标。由于普通图像信息冗杂，这种计算通常鲁棒性较差，速度很慢，实时性不好，且关节缺乏定量信息参照，计算误差较大，这类技术目前多处于实验室研究阶段；第二种是基于主动热源照射分离前后景信息的红外相机图像的运动捕捉，即所谓的热能式动作捕捉，原理与第一种类似，只是经过热光源照射后，图像前景和背景分离使得人形检测速度大幅提升，提升了三维重建的鲁棒性和计算速率，但热源从固定方向照射，导致动作捕捉时人体运动方向受限，难以进行360度全方位的动作捕捉，例如转身、俯仰等动作并不适用，且同样无法突破因缺乏明确的关节参照信息导致计算误差大的技术壁垒；第三种是三维深度信息的运动捕捉，系统基于结构光编码投射实时获取视场内物体的三维深度信息，根据三维形貌进行人形检测，提取关节运动轨迹，这类技术的代表产品是微软公司的kinect传感器^[5] ，其动作识别鲁棒性较好，采样速率高，价格非常低廉，有不少爱好者尝试使用kinect进行动作捕捉，效果并不尽如人意，这是因为kinect的应用定位是一款动作识别传感器，而不是精确捕捉，同样存在关节位置计算误差大，层级骨骼运动累积变形等问题。总体来讲，无标记点式动作捕捉普遍存在的问题是动作捕捉精度低，并且由于原理固有的局限导致运动自由度解算缺失（如骨骼的自旋信息等）造成动作变形等问题。
标记点式光学动作捕捉系统一般由光学标识点（Markers）、动作捕捉相机、信号传输设备以及数据处理工作站组成，人们常称的光学式动作捕捉系统通常是指这类标记点式动作捕捉系统。在运动物体关键部位（如人体的关节处等）粘贴Marker点，多个动作捕捉相机从不同角度实时探测Marker点，数据实时传输至数据处理工作站，根据三角测量原理精确计算Marker点的空间坐标，再从生物运动学原理出发解算出骨骼的6自由度运动。这里根据标记点发光技术不同还分为主动式和被动式光学动作捕捉系统：

主动式光学动作捕捉系统的Marker点由LED组成，LED粘贴于人体各个主要关节部位，LED之间通过线缆连接，由绑在人体表面的电源装置

主动式光学系统图册

供电，市场上最具代表性的产品是美国的PhaseSpace，其主要优点是采用高亮LED作为光学标识，可在一定程度上进行室外动作捕捉，LED受脉冲信号控制明暗，以此对LED进行时域编码识别，识别鲁棒性好，有较高的跟踪准确率；缺点是：第一，时序编码的LED识别原理本质上是依靠相机在不同时刻对不同的Marker采集成像来进行ID标识,相当于在同一个动作帧中分别针对每个Marker进行逐次曝光，破坏了动作捕捉的Markers检测的同步性，导致运动变形，不利于快速动作的捕捉；第二，由于相机帧率很大部分用于单帧内对不同Marker点的识别，因此有效动作帧采样率较低，这点上也不利于快速运动的捕捉和数据分析；第三，LED Marker可视角度小(发射角120度左右)，一个捕捉镜头内部通常集成了两个相机近距离采集，这种窄基线结构导致视觉三维测量精度较低，并且在运动过程中由于动作遮挡等问题仍然不可避免地导致频繁的数据缺失，如果为尽量避免遮挡造成的数据缺失，需要成倍增加动作捕捉镜头的数量弥补遮挡盲区问题，设备成本也随之成倍增加；第四，由于时序编码的原理局限，系统可支持的Marker总数有严格限制，在保证足够的采样率前提下，同时采集人数一般不宜超过2人，且Marker点数量越多，单帧逐点曝光时间越长，运动变形越严重。

被动式光学系统图册

被动式光学动作捕捉系统，也称反射式光学动作捕捉系统，其Marker点通常是一种高亮回归式反光球，粘贴于人体各主要关节部位，由动作捕捉镜头上发出的LED照射光经反光球反射至动捕相机，进行Marker的检测和空间定位。这类产品市场上最典型的品牌是美国Motion Analysis、英国的Vicon以及中国的天远，其主要优点是技术成熟，精度高、采样率高、动作捕捉准确，表演和使用灵活快捷，Marker点可以很低成本地随意增加和布置，适用范围很广；主要缺点是：第一，对捕捉视场内的阳光敏感，阳光在地面形成的光斑可能被误识别为Marker点，造成目标干扰，因此系统一般需要在室内环境下正常工作；第二，Marker点识别容易出错，由于反光式Marker点没有唯一对应的ID信息，在运动过程中出现遮挡等问题容易造成目标跟踪出错，导致Marker点ID混淆，这种情况通常导致运动捕捉现场实时动画演示效果不好，动作容易错位，并且需要在后处理过程中通过人工干预进行数据修复，工作量大幅增加。不过新一代的Vicon^[6] 软件以及天远的3DMoCap^[7] 都植入了先进的智能捕捉技术，具有很强的Marker点自动识别和纠错能力，很大程度上满足了现场实时动画演示的需要，并且大大降低了人工干预的工作量，从本质上进一步提升了系统的实用性。

系统特点分析/动作捕捉系统编辑

不同原理的动作捕捉系统各有优缺点，一般可从以下几个方面进行性能评估：定位精度、采样频率、动作数据质量、快速捕捉能力、多目标捕捉能力、运动范围、环境约束、使用便捷性、适用性等，据此对当前市场上常见的几种动作捕捉系统进行对比如下：

系统对比

选择动作捕捉系统没有统一的标准，用户应充分衡量自身的需求和一般使用情况，通常可以采取以下步骤筛选最适合自身使用的系统：
1. 一般情况下，注重综合性能的，包括精度、动作数据质量和适用性等，首先考虑被动式光学系统，可以得到很好的精度和动作效果，适用性强，是现有动作捕捉技术中最为成熟的一种，应用案例最多，经典的电影特效和CG作品中大多采用这种技术，较为实用，适合多数用户使用；
2. 强调室外应用并且具备较好的定位精度的，考虑主动式光学系统，尽管在其他性能方面做出一定程度的让步，但可以兼顾室外应用和定位精度的特殊应用需求；
3. 强调室外应用并且运动范围几乎不受限制的，考虑惯性式系统，系统受环境约束很少，前提是对动作质量要求不高；
4. 强调便捷性，特别是应用于人机交互、动作识别领域，对动作精度、质量及可靠性要求较低的，考虑无标记点式系统，如微软的Kinect传感器，在实用性和成本方面是其它系统无法比拟的。

系统参数及其在实际应用中的物理意义/动作捕捉系统编辑

动作捕捉相机分辨率

光学动作捕捉系统，不论是无标记点式还是标记点式，动作捕捉相机分辨率都是系统的一个重要参数。与影视行业的摄像机分辨率意义不同，动作捕捉相机分辨率意义并不在于画面的细腻程度和视觉体验，因为系统并不需要精细的画面，而是能够分辨出视场内的标记点或目标特征即可，因此动作捕捉相机的物理分辨率通常不需要影视级摄像机那么高，但是这里的分辨率具有两大物理意义：一是空间尺寸分辨能力，同样的视场范围，同样的工作距离下，分辨率越高，可识别的最小特征尺寸越小，通常这个意义在于，高分辨率的相机可以使用更小尺寸的Marker，Marker过大容易对动作表演造成干扰，一般情况下Marker大小不宜超过直径20mm，但也不宜过小，太小容易被遮挡，可视角度随之变小，一般肢体捕捉Marker点不宜小于直径10mm；二是定位精度，尽管精度本身受分辨率、硬件同步性能、软件标定和三维重建算法等诸多因素影响，但分辨率决定了空间尺寸的分辨能力，一定程度上决定了空间定位的不确定度，造成三维数据不同程度的抖动，从而限制了定位精度，在其它因素控制较好的情况下，分辨率对系统精度起到决定性作用。
动作捕捉相机分辨率直接影响系统成本，通常更高的分辨率意味着更高的设备成本，因此对于大部分追求实用性和性价比的用户来讲，分辨率能够满足自身的需求即可，无需盲目追求高分辨率。对于一般的动作捕捉应用来说，捕捉数据用来进行动画制作，其捕捉精度在亚毫米量级已经足够，因为这个量级的误差在动画中人眼是很难分辨的，在分辨率一定、相机视角一定的情况下，决定这个精度的因素主要在于相机工作距离，更直观地说，就是适用场地尺寸大小，捕捉场地越大，绝对精度越低，当场地大小超过绝对精度在亚毫米量级的要求时，应该采用更高分辨率的动作捕捉相机。以这个精度要求为基准，以常用的动作捕捉60度左右相机视角为例，我们可以得到一个分辨率与适用场地范围的参考对照表：

对照表图册

动作捕捉相机采集帧率

动作捕捉相机采集帧率与通常所说的相机帧率一致，是指单位时间内图像数据采集的次数，单位一般是fps，即帧/秒。
相机采集帧率对于动作捕捉来讲具有两大物理意义：一是限定了动作采样频率，动作采样频率最大不超过相机采集帧率（在下面“采样频率”一节会详细阐述）；二是直接决定了运动跟踪算法的有效性，进而决定了动作捕捉的正确率。运动跟踪贯穿动作捕捉的整个过程，一方面软件需要通过跟踪进行不同目标的识别和区分，另一方面通过跟踪预测可以缩小目标探测区域，有效地提升计算速率和捕捉实时性。一旦跟踪失败，往往动作捕捉数据会出错，严重的会导致丢失关键帧，影响捕捉的实时性。一般地讲，相机帧率越高，跟踪性能越好，即捕捉数据正确率越高（主动式光学系统除外，参见下节）。
通常为了实现较好的动作捕捉性能，专业的动作捕捉系统制造商都会进行深入的研究以平衡硬件性能参数来满足使用要求。其中，动作捕捉相机分辨率和采集帧率是比较重要的一对相关参数，简单地说，分辨率越高应该对应越高的采集帧率，因为分辨率增加相当于目标在图像上的运动预测不确定度增加，为保证计算速度，在跟踪搜索窗口不变的情况下，目标逃离跟踪窗口的概率大幅增加造成跟踪失败，解决这个问题最有效的方法就是提高采集帧率，降低运动预测的不确定度，以确保跟踪正确率。专业的动作捕捉相机分辨率与帧率的关系一般应满足如下关系：

相机分辨率与帧率的关系图册

当系统不能达到足够的采集帧率时，最明显的使用问题是快速运动捕捉能力差，例如对人体进行击打、踢腿等动作捕捉时，运动数据往往会频繁出错，造成无法进行现场动画演示，且大大增加数据后处理的工作量，系统实用性低。

动作采样频率

一般地，人们会认为相机采集频率越高越好，大部分情况下是可以这样理解的，但这个理解并不全面，有个别情况属于例外。
事实上，相机采集频率并不等于动作采样频率，用户真正关心的实际是动作采样频率而不是相机采集频率。采样频率指动作捕捉系统单位时间内采集动作关键帧的频率，其中动作关键帧是指某一时刻得到的一套完整的动作数据。毕竟动作采样频率才决定了动作捕捉的细腻程度和采样密度，特别是对于动作分析的用户来讲，采样频率对运动学计算意义重大，例如计算速度、加速度等参数时，较高的动作采样频率尤其重要。
对于无标记点式光学系统和被动式光学系统来讲，动作采样频率和相机采集帧率一致，相机每曝光一次即得到一帧完整的动作数据，这时将相机帧率等价于动作采样频率是没有问题的；但是，对于主动式光学系统来讲，原理截然不同，由于采用时序编码的LED Marker点，不同的LED随时间交替明暗变化，相机每曝光一次实际只对空间中的一个或几个Marker点进行采集，以此实现对不同Marker点的ID识别区分，捕捉时视场内往往有几十甚至上百个Marker点，当对所有Marker点完成一次采集时，才算作一次完整的动作采集，即一个动作关键帧，而相机采集次数可能已经进行了几十次，这时动作采样频率远小于相机帧率，这类系统往往标注很高的相机帧率，但实际的动作采样率往往在30fps甚至更低。

同步采集时间精度

专业的动作捕捉系统，特别是各类光学动作捕捉系统，同步采集的时间精度是另一大重要的硬件参数，其物理意义是能够影响系统定位精度。同步采集时间精度是指系统在获取一个动作关键帧时，各相机曝光时刻间的时间差别，理论上讲在同一个动作关键帧采集时，各相机须在完全相同的时刻同步曝光，才能保证视觉三维测量的准确性，在实际应用中，专业的生产厂商会采用同步控制装置对系统进行精确同步控制，时间同步精度往往在百万分之一秒以上。没有同步控制装置或同步精度低的，直接导致空间定位偏差大，或者频繁出现异常噪声直接影响动作捕捉的数据质量和使用效率。

动作捕捉相机配置数量

动作捕捉相机配置数量具有重要的物理意义：视觉三维测量原理是特征目标被多个相机同时观测到，才能进行三维重建，当只有一个相机或没有相机观测到该目标时，对目标的重建就会失败，造成数据缺失，这种情况多是由于复杂动作、多人表演或与道具结合的表演过程中的各种遮挡导致。相机数量越多，布置的空间视点越多，目标被完全遮挡的概率就越小，数据缺失的也就越少，捕捉质量也就越好，降低数据后处理的复杂度和工作量。此外，从视觉三维测量的原理出发，相机数量越多，也可以在一定程度上提升目标空间定位的精度。因此，在架设动作捕捉系统时，一定要考察清楚相机配置数量是否能够满足自身的捕捉需要，一般来讲，动作捕捉场地越大，捕捉的对象越多，动作越复杂，需要的动作捕捉相机数量越多，数量配置与场地大小的大致对应关系可参考下表：

数量配置与场地大小的大致对应关系图册

人体模型标记点（Marker）配置数量

光学动作捕捉系统通常在软件中提供不同的人体标记点模型供用户选择，即动作捕捉时单人身上布置的标记点总数，这个数量的物理意义在于它关系到骨骼运动解算的准确度。系统通过身上的标记点运用运动学原理解算关节运动信息，理论上标记点数量越多，动作解算越准确；为了反映全身各主要关节的6自由度运动信息，模型规划的基本标记点数量至少应大于36个，否则会缺失某些关节的某些运动自由度，造成骨骼动作数据失真。

反光标记点（Marker）尺寸大小

反光标记点尺寸大小没有严格限定，其物理意义在于与动作捕捉相机适配，保证在相机中能够被有效地探测到，同时不影响动作表演的自由性。一方面为避免遮挡引起的标记点可视角度过小等问题，标记点尺寸一般不小于直径10mm；另一方面为避免标记点过大影响动作表演，尺寸一般不大于直径20mm。具体尺寸一般与系统相机分辨率相对应，分辨率越高，标记点标配尺寸越小，例如130万像素以下系统一般使用20mm左右的标记点，而500万像素系统一般使用10mm左右标记点。