不同的动作捕捉系统依照的原理不同,系统组成也不尽相同。总体来讲,动作捕捉系统通常由硬件和软件两大部分构成。硬件一般包含信号发射与接收传感器、信号传输设备以及数据处理设备等;软件一般包含系统设置、空间定位定标、运动捕捉以及数据处理等功能模块。信号发射传感器通常位于运动物体的关键部位,例如人体的关节处,持续发出的信号由定位传感器接收后,通过传输设备进入数据处理工作站,在软件中进行运动解算得到连贯的三维运动数据,包括运动目标的三维空间坐标、人体关节的6自由度运动参数等,并生成三维骨骼动作数据,可用于驱动骨骼动画,这就是动作捕捉系统普遍的工作流程。 系统分类及简介/动作捕捉系统 编辑 动作捕捉系统种类较多,一般地按照技术原理可分为:机械式、声学式、电磁式、惯性传感器式、光学式等五大类[1] ,其中光学式根据目标特征类型不同又可分为标记点式光学和无标记点式光学两类。近期市场上出现所谓的热能式动作捕捉系统,本质上属于无标记点式光学动作捕捉范畴,只是光学成像传感器主要工作在近红外或红外波段。 ![]() ![]() 声学式动作捕捉系统一般由发送装置、接收系统和处理系统组成。发送装置一般是指超声波发生器,接收系统一般由三个以上的超声探头阵列组成。通过测量声波从一个发送装置到传感器的时间或者相位差,确定到接受传感器的距离,由三个呈三角排列的接收传感器得到的距离信息解算出超声发生器到接收器的位置和方向。这类产品的典型生产厂家有Logitech、SAC等,其最大优点是成本低,但缺点是精度较差,实时性不高,受噪声和多次反射等因素影响较大。电磁式动作捕捉系统一般由发射源、接收传感器和数据处理单元组成。发射源在空间产生按一定时空规律分布的电磁场;接收传感器安置在表演者身体的关键位置, ![]() ![]() 惯性传感器式动作捕捉系统 由姿态传感器、信号接收器和数据处理系统组成。姿态传感器固定于人体各主要肢体部位,通过蓝牙等无线传输方式将姿态信号传送至数据处理系统,进行运动解算。其中姿态传感器集成了惯性传感器、重力传感器、加速度计、磁感应计、微陀螺仪等元素,得到各部分肢体的姿态信息,再结合骨骼的长度信息和骨骼层级连接关系,计算出关节点的空间位置信息。代表性的产品有Xsens、3D Suit等,这类产品主要的优点是便携性强,操作简单,表演空间几乎不受限制,便于进行户外使用,但由于技术原理的局限,缺点也比较明显,一方面传感器本身不能进行空间绝对定位,通过各部分肢体姿态信息进行积分运算得到的空间位置信息造成不同程度的积分漂移,空间定位不准确;另一方面原理本身基于单脚支撑和地面约束假设,系统无法进行双脚离地的运动定位解算;此外,传感器的自身重量以及线缆连接也会对动作表演形成一定的约束,并且设备成本随捕捉对象数量的增加成倍增长,有些传感器还会受周围环境铁磁体影响精度。 光学式动作捕捉系统 基于计算机视觉原理[2][3] ,由多个高速相机从不同角度对目标特征点的监视和跟踪来完成运动捕捉的任务。理论上对于空间中的任意一个点,只要它能同时为两部相机所见,就可以确定这一时刻该点在空间中的位置。当相机以足够高的速率连续拍摄时,从图像序列中就可以得到该点的运动轨迹。这类系统采集传感器通常都是光学相机,不同的是目标传感器类型不一,一种是在物体上不额外添加标记,基于二维图像特征或三维形状特征提取的关节信息作为探测目标,这类系统可统称为无标记点式光学动作捕捉系统,另一种是在物体上粘贴标记点作为目标传感器,这类系统称为标记点式光学动作捕捉。 ![]() 标记点式光学动作捕捉系统一般由光学标识点(Markers)、动作捕捉相机、信号传输设备以及数据处理工作站组成,人们常称的光学式动作捕捉系统通常是指这类标记点式动作捕捉系统。在运动物体关键部位(如人体的关节处等)粘贴Marker点,多个动作捕捉相机从不同角度实时探测Marker点,数据实时传输至数据处理工作站,根据三角测量原理精确计算Marker点的空间坐标,再从生物运动学原理出发解算出骨骼的6自由度运动。这里根据标记点发光技术不同还分为主动式和被动式光学动作捕捉系统: 主动式光学动作捕捉系统的Marker点由LED组成,LED粘贴于人体各个主要关节部位,LED之间通过线缆连接,由绑在人体表面的电源装置 ![]()
![]() 系统特点分析/动作捕捉系统 编辑 不同原理的动作捕捉系统各有优缺点,一般可从以下几个方面进行性能评估:定位精度、采样频率、动作数据质量、快速捕捉能力、多目标捕捉能力、运动范围、环境约束、使用便捷性、适用性等,据此对当前市场上常见的几种动作捕捉系统进行对比如下: 系统对比 选择动作捕捉系统没有统一的标准,用户应充分衡量自身的需求和一般使用情况,通常可以采取以下步骤筛选最适合自身使用的系统:1. 一般情况下,注重综合性能的,包括精度、动作数据质量和适用性等,首先考虑被动式光学系统,可以得到很好的精度和动作效果,适用性强,是现有动作捕捉技术中最为成熟的一种,应用案例最多,经典的电影特效和CG作品中大多采用这种技术,较为实用,适合多数用户使用; 2. 强调室外应用并且具备较好的定位精度的,考虑主动式光学系统,尽管在其他性能方面做出一定程度的让步,但可以兼顾室外应用和定位精度的特殊应用需求; 3. 强调室外应用并且运动范围几乎不受限制的,考虑惯性式系统,系统受环境约束很少,前提是对动作质量要求不高; 4. 强调便捷性,特别是应用于人机交互、动作识别领域,对动作精度、质量及可靠性要求较低的,考虑无标记点式系统,如微软的Kinect传感器,在实用性和成本方面是其它系统无法比拟的。 系统参数及其在实际应用中的物理意义/动作捕捉系统 编辑 光学动作捕捉系统,不论是无标记点式还是标记点式,动作捕捉相机分辨率都是系统的一个重要参数。与影视行业的摄像机分辨率意义不同,动作捕捉相机分辨率意义并不在于画面的细腻程度和视觉体验,因为系统并不需要精细的画面,而是能够分辨出视场内的标记点或目标特征即可,因此动作捕捉相机的物理分辨率通常不需要影视级摄像机那么高,但是这里的分辨率具有两大物理意义:一是空间尺寸分辨能力,同样的视场范围,同样的工作距离下,分辨率越高,可识别的最小特征尺寸越小,通常这个意义在于,高分辨率的相机可以使用更小尺寸的Marker,Marker过大容易对动作表演造成干扰,一般情况下Marker大小不宜超过直径20mm,但也不宜过小,太小容易被遮挡,可视角度随之变小,一般肢体捕捉Marker点不宜小于直径10mm;二是定位精度,尽管精度本身受分辨率、硬件同步性能、软件标定和三维重建算法等诸多因素影响,但分辨率决定了空间尺寸的分辨能力,一定程度上决定了空间定位的不确定度,造成三维数据不同程度的抖动,从而限制了定位精度,在其它因素控制较好的情况下,分辨率对系统精度起到决定性作用。 动作捕捉相机分辨率直接影响系统成本,通常更高的分辨率意味着更高的设备成本,因此对于大部分追求实用性和性价比的用户来讲,分辨率能够满足自身的需求即可,无需盲目追求高分辨率。对于一般的动作捕捉应用来说,捕捉数据用来进行动画制作,其捕捉精度在亚毫米量级已经足够,因为这个量级的误差在动画中人眼是很难分辨的,在分辨率一定、相机视角一定的情况下,决定这个精度的因素主要在于相机工作距离,更直观地说,就是适用场地尺寸大小,捕捉场地越大,绝对精度越低,当场地大小超过绝对精度在亚毫米量级的要求时,应该采用更高分辨率的动作捕捉相机。以这个精度要求为基准,以常用的动作捕捉60度左右相机视角为例,我们可以得到一个分辨率与适用场地范围的参考对照表: ![]() 动作捕捉相机采集帧率 动作捕捉相机采集帧率与通常所说的相机帧率一致,是指单位时间内图像数据采集的次数,单位一般是fps,即帧/秒。 相机采集帧率对于动作捕捉来讲具有两大物理意义:一是限定了动作采样频率,动作采样频率最大不超过相机采集帧率(在下面“采样频率”一节会详细阐述);二是直接决定了运动跟踪算法的有效性,进而决定了动作捕捉的正确率。运动跟踪贯穿动作捕捉的整个过程,一方面软件需要通过跟踪进行不同目标的识别和区分,另一方面通过跟踪预测可以缩小目标探测区域,有效地提升计算速率和捕捉实时性。一旦跟踪失败,往往动作捕捉数据会出错,严重的会导致丢失关键帧,影响捕捉的实时性。一般地讲,相机帧率越高,跟踪性能越好,即捕捉数据正确率越高(主动式光学系统除外,参见下节)。 通常为了实现较好的动作捕捉性能,专业的动作捕捉系统制造商都会进行深入的研究以平衡硬件性能参数来满足使用要求。其中,动作捕捉相机分辨率和采集帧率是比较重要的一对相关参数,简单地说,分辨率越高应该对应越高的采集帧率,因为分辨率增加相当于目标在图像上的运动预测不确定度增加,为保证计算速度,在跟踪搜索窗口不变的情况下,目标逃离跟踪窗口的概率大幅增加造成跟踪失败,解决这个问题最有效的方法就是提高采集帧率,降低运动预测的不确定度,以确保跟踪正确率。专业的动作捕捉相机分辨率与帧率的关系一般应满足如下关系: ![]() 一般地,人们会认为相机采集频率越高越好,大部分情况下是可以这样理解的,但这个理解并不全面,有个别情况属于例外。 事实上,相机采集频率并不等于动作采样频率,用户真正关心的实际是动作采样频率而不是相机采集频率。采样频率指动作捕捉系统单位时间内采集动作关键帧的频率,其中动作关键帧是指某一时刻得到的一套完整的动作数据。毕竟动作采样频率才决定了动作捕捉的细腻程度和采样密度,特别是对于动作分析的用户来讲,采样频率对运动学计算意义重大,例如计算速度、加速度等参数时,较高的动作采样频率尤其重要。 对于无标记点式光学系统和被动式光学系统来讲,动作采样频率和相机采集帧率一致,相机每曝光一次即得到一帧完整的动作数据,这时将相机帧率等价于动作采样频率是没有问题的;但是,对于主动式光学系统来讲,原理截然不同,由于采用时序编码的LED Marker点,不同的LED随时间交替明暗变化,相机每曝光一次实际只对空间中的一个或几个Marker点进行采集,以此实现对不同Marker点的ID识别区分,捕捉时视场内往往有几十甚至上百个Marker点,当对所有Marker点完成一次采集时,才算作一次完整的动作采集,即一个动作关键帧,而相机采集次数可能已经进行了几十次,这时动作采样频率远小于相机帧率,这类系统往往标注很高的相机帧率,但实际的动作采样率往往在30fps甚至更低。 同步采集时间精度 专业的动作捕捉系统,特别是各类光学动作捕捉系统,同步采集的时间精度是另一大重要的硬件参数,其物理意义是能够影响系统定位精度。同步采集时间精度是指系统在获取一个动作关键帧时,各相机曝光时刻间的时间差别,理论上讲在同一个动作关键帧采集时,各相机须在完全相同的时刻同步曝光,才能保证视觉三维测量的准确性,在实际应用中,专业的生产厂商会采用同步控制装置对系统进行精确同步控制,时间同步精度往往在百万分之一秒以上。没有同步控制装置或同步精度低的,直接导致空间定位偏差大,或者频繁出现异常噪声直接影响动作捕捉的数据质量和使用效率。 动作捕捉相机配置数量具有重要的物理意义:视觉三维测量原理是特征目标被多个相机同时观测到,才能进行三维重建,当只有一个相机或没有相机观测到该目标时,对目标的重建就会失败,造成数据缺失,这种情况多是由于复杂动作、多人表演或与道具结合的表演过程中的各种遮挡导致。相机数量越多,布置的空间视点越多,目标被完全遮挡的概率就越小,数据缺失的也就越少,捕捉质量也就越好,降低数据后处理的复杂度和工作量。此外,从视觉三维测量的原理出发,相机数量越多,也可以在一定程度上提升目标空间定位的精度。因此,在架设动作捕捉系统时,一定要考察清楚相机配置数量是否能够满足自身的捕捉需要,一般来讲,动作捕捉场地越大,捕捉的对象越多,动作越复杂,需要的动作捕捉相机数量越多,数量配置与场地大小的大致对应关系可参考下表: ![]() 人体模型标记点(Marker)配置数量 光学动作捕捉系统通常在软件中提供不同的人体标记点模型供用户选择,即动作捕捉时单人身上布置的标记点总数,这个数量的物理意义在于它关系到骨骼运动解算的准确度。系统通过身上的标记点运用运动学原理解算关节运动信息,理论上标记点数量越多,动作解算越准确;为了反映全身各主要关节的6自由度运动信息,模型规划的基本标记点数量至少应大于36个,否则会缺失某些关节的某些运动自由度,造成骨骼动作数据失真。 反光标记点尺寸大小没有严格限定,其物理意义在于与动作捕捉相机适配,保证在相机中能够被有效地探测到,同时不影响动作表演的自由性。一方面为避免遮挡引起的标记点可视角度过小等问题,标记点尺寸一般不小于直径10mm;另一方面为避免标记点过大影响动作表演,尺寸一般不大于直径20mm。具体尺寸一般与系统相机分辨率相对应,分辨率越高,标记点标配尺寸越小,例如130万像素以下系统一般使用20mm左右的标记点,而500万像素系统一般使用10mm左右标记点。 |
|