简易信号通信——可应用于军事上的手势及语音辨识技术

hercules028 2018-09-08

展开全文

●作者/李苍昱(台)

●取材/台《通信季刊》

提要

一、本文提出基于视觉之动态手势辨识技术，不需要特殊硬件的辅助，并结合既有语音识别技术，可轻易且方便操控虚拟对象。

二、交互式扩增实境技术，可用在军事相关应用，例如教育训练、装备控制、指令(命令)下达等等用途。

三、研究成果能应用在兵棋操控，改善现今计算机兵棋系统需手动输入繁复位置参数之缺点。可借由动态手势方便地移动、旋转及缩放三维对象，进而下达作战命令，亦可应用在T高危险性作业机械手臂远程控制，降低人员作业危安。

前言

本文提出基于视觉之动态手势辨识技术，不需要特殊硬件的辅助(裸手手势)，并结合既有扩增实境技术，可因地制宜修改，轻易用于直觉且实时性之操控。手势信息主要包括「形状(Shape) 、位置(Position) 、方向(Orientation) 及运动(Movement)」四要素，结合此四项要素，手势不仅可以表达单一概念，还可组合成另一个具有意义的动态手势(Dynamic Hand Gesture)。本文首先撷取手部区域，接着撷取指尖位置、手指支数、手势方向等特征，以办识静态手势。最后结合状态信息及手势变动信息，办识出移动、旋转及缩放等动态手势变动信息，分析各个静态手势信息，组合成正确且具完整意义之动态手势。此外，手势辨识技术可用在军事相关应用，例如教育训练、装备控制、指令(命令)下达等等用途，相关应用概述如后：

▉ 一、教学训练方面

可运用在战术、装备维保及装备操作等教学与训练仿真器上，以身历其境的环境，诱发学习者的兴趣，增加学习成效。

▉ 二、装备控制方面

T高危险性作业机械手臂远程控制，如弹药库弹整所未爆弹处理之机械手臂等装备操作，可降低人员作业伤亡。

▉ 三、指令(命令)下达

可运用在兵棋操控系统，改善现今计算机兵棋系统需手动输入繁复位置参数。借由动态手势方便地移动位置、定位，进而下达作战命令。

一、手势辨识运用

为了让扩增实境更富互动性，基本上以采用标记辅助及特殊硬件辅助等两类方法，用来辅助事件或脚本的触发，透过与使用者之间的交互过程，达到更为生动的互动过程，以下列举两个手势辨识技术在学术上的运用。

在 2005 年新西兰坎特伯里大学 Trond Nilsen 及 Julian Looser 等人，设计出可2人以上同时操作使用的扩增实境坦克大战游戏(如图一)，这项技术若引进至军方，可用至战术兵棋推演或教学使用。

图一扩增实境坦克大战游戏

2010 年 Lee 等人3利用接触式的电子手套(Pinch Glove)在混合实境(Mixed Reality, MR)及扩增实境(Augmented Reality, AR)的环境中，操纵虚拟对象。(如图二)

鉴于软硬件技术的进步，前述方式利用特殊硬件或利用标记的触发，在 AR 环境下达到互动目的，但也相对的产生了实用上的困扰，除了特殊硬件取得及携带的困扰外，多标记的互动方式亦需学习或了解各标记的功能后方能够运用；在实际应用面，希望能使用更灵巧且方便的媒介，摆脱特定硬件(含标记)的辅助，而「基于视觉技术的手势」及「语音识别」就是直观，且很好的操控媒介。

图二电子手套于扩增实境的运用

二、手势辨识相关技术分析

手势对人们而言是直觉且方便运用的，在信息科技尚未普及前，用于人与人之间信息与情感的传达。在目前信息科技普及的情况下，也将是现今人机接口的关键技术之一，故很多研究人员朝向手势辨识的领域发展。

手部区域信息取得方式大致可分为两类，一类是用特殊硬件辅助，如采用数据手套(电子手套等)、特殊影像撷取器等方式取得手部信息。另一类则是以视觉技术的方式取得手部信息，相关研究分述如后：

(一)利用辅助设备之手势辨识相关研究

Malassiotis 及Strintzis4利用新型3D 的传感器(Novel 3D Sensor)取得有深度的手部信息。(如图三)

(a)条纹图像(算深度) (b)真实影像 (c)具深度的手势影像

图三 Novel 3D Sensor 取出手部分区图

Ramirez-Cortes 等人5为了提升手掌辨识率，直接用商用扫瞄机取得手部区域，取得手掌区域影像。(如图四)

图四商用扫瞄机取得手部分区图

Cheng 及 Trivedi6提出的车上异常行为侦测，利用可见光及近红外线(数组)来识别手部信息(针对特别区域)，其硬件装置如图五。

图五结合可见光及近红外线设备

Zhang 等人7利用类似电子手套的装置，来撷取手部的运动、动作等信息，装置如图六。

图六 EMG 电子手套

(二) 利用视觉技术之手势辨识相关研究以视觉技术方式取得手部区域，进而辨识手势之方法可分为两大类，其一为手部增加色彩标记方式，另一种则为透过肤色侦测等技术之裸手手势辨识，分述如后：

1.彩色标记

Just 及 Marcel 使用彩色标记，在手上配戴颜色标记(色彩手套)，协助手部区域取得。(如图七)

图七色彩手套辅助手部取得图

2.裸手手势辨识

Ionescu 等人将手势分为静态手势(Static Gestures)及动态手势(Dynamic Gestures) 两大类别，并运用手部区域的骨架集合来判断手势；Just 及 Marcely 提出动态手势的概念； Kelly 等人提出手的姿势可以作为特殊的过渡态(Transition States)，而多个过度态可以组合成特殊的意义之概念，并将此概念用于人类手语之辨识。结合前述概念，本文将裸手手势区分为静态手势及动态手势两种分类；而就辨识区域的不同，还可再细分为手臂手势与手掌手势。换句话说，手势以类别来区分可分为静态与动态手势，而又因为观察的区域区分为手臂与手掌手势，相关研究分述如后：

(1) 静态手掌手势辨识

Ionescu 等人利用静态手掌手势辨识后的结果，来操控机械手臂。(如图八)

图八静态手掌手势辨识图

Huang 及 Hu 利用 Gabor Flter 的特性将手掌的角度做适当调整，即让所有手势都调整至单一方向，如此可减少模板数目，以增加比对时的效率，并且有提升手势辨识率的效果。这也点出了，手势的方向对手势辨识有其关联与帮助。

Yin 以及 Xie14利用 RCE(Restricted Coulomb Energy)类神经网络以及 L*a*b*色彩空间，切割出手部肤色区域之二值化影像，找出像素值变化之位置点当做特征点，利用此特征点计算手指支数(或分支数目)(Branch Number, BN)，以及分支相位(Branch Phase)。作者并利用该特征定义八种手势来控制机器人具六个轴承手臂之活动。(如图九)

图九静态手掌手势辨识图

Luca 利用凸包(Convex Hull)的特性，实时且直觉地计算手指支数，如图十。但该方法仅是初步的手势辨识方式，例如该方法仅对单一方向之手势有效且无进一步撷取指尖坐标的机制。

图十静态手掌手势辨识图

手势辨识研究领域中，部分的研究以模板比对(Match Template)的方式来判断手势，如 Ge 等人、Huang 及 Hu (模板比对如图十一)，但判别的手势必须有一定的差异性，否则正确率将偏低。另一方面，要辨识复杂手势必须增加其模版样本数目或多个数据库比对，比对时将花费更多的计算时间，较不利实时系统。

图十一模板比对图

也有部分研究使用学习的方式来做手势的辨识，如 Chen等人、Cheng及Trivedi，但使用 AdaBoost、SVM 等学习的方式辨识的准确度皆受样本的影响甚巨，且无法直接撷取手指位置等相关信息，须结合其他方式获取，图十二是将手掌手势作 AdaBoost 分类的图。

图十二 AdaBoost 分类图

(2) 动态手臂手势辨识

Suk 等人提出双手动作及手臂与参考点间之手部分析，其手势的定义图十三 (a)至(j)，利用双手的动作组合出的手势，但该论文未提及手势辨识的起始与结束，不利于实际运用。例如，辨识图十三(g)时，过程中手部轨迹有向左、右的动作，易误判成图十三(i)、(j)手势，在辨识过程中容易有混淆的状况。

图十三双手手势图

Ionescu 等人提出将每个手臂手势骨架迭加，将其组合解析为动态手势，并分析其关系，以解读手势代表意义(如图十四)；其中(a)为(c)图骨架之集合，(b)为(d)图骨架之集合。其辨识方法较不利于运用在实时系统上；该方法的优点在于这种完整手势动作的分析概念，可以克服动态手势辨识起始与结束的问题。

(3) 动态手掌手势辨识

Kurakin 及 Mestetskiy 提出以视觉技术的方式结合连续骨架(Continuous Skeletons)的动态手势识别方法，并用于控制 2D 虚拟对象之移动、缩放和旋转，如图十五(a)。可是该方法当有手指交迭的情形下，将可能有严重的误判情事，如图十五(b)。图十四骨架手势图

图十五骨架撷取图

手部区域取得的方法有许多种类，不论是使用特殊装置或单纯使用式视觉的技术，其目的都在于完善取得手部区域(手背或手掌)。手部区域取得完善与否将会影响手势信息截取之正确性，甚至影响整体手势辨识率。

3.手势信息分析

Kelly 等人 1 提出手势信息由四项要素所构成，分别是手的(1)形状、(2)位置、(3) 方向和(4)运动。将手势的这四个组件信息，融合交互比对判断动态手势以避免手势意义判读错误，这也点出了动态手势辨识远比静态手势辨识来得困难且相对复杂。举出一个因运动方向不同而构成完全不同意义的动态手势例子，由「比拇指」手势，因顺时钟旋转 90 度与逆时钟旋转 90 度这两者间的不同，所构成的动态手势可代表不同的意义。(如图十六)

图十六手势图

语音识别相关应用

语音识别技术已发展许久，现在已是十分成熟的一门技术，主要是为了让机器能够了解人类的语言，透过语音的操控，使得机器或系统能够执行相对应的任务，现今已有许多相关应用，如 SIRI, Window Speech Recognition 等相关互动应用。

语音为人类作为沟通方式的自然语音之一，Google、Apple 及微软分别推出 IRIS、 SIRI、Microsoft Speech 智能型语音识别技术，并能对答如流。语音识别技术已臻至成熟，微软亦释出 Speech SDK 以供开发者应用。(如图十七)

图十七 IRIS 及 SIRI 对答图

语音常用来控制机器人，但当机器人距离使用者较远，语音识别技术将受影响。 Gomez 及 Kawahara 提出算法增强音源讯号，改善了语音识别技术，使机器人能辨识人类语言。(如图十八)

四、相关基础概念关键技术

(一)手势辨识关键技术

要做动态手势辨识，首先须取得手势信息四项要素，而相关的手部信息如指尖位置、手部区域质心、手指支数、双手手臂变动等特征，可借由凸包结合视觉技术撷取或分析得知，并在某些手部特定情动作(形状)之信息撷取，因为其技术的不同而有互补的作用。简单介绍凸包原理如后：

1. 凸包(Convex Hull)

凸包可以找出多维空间中一群散布各处之点的外壳。(如图十九)

图十九 EmguCV 中 GetConvexityDefacts 方法图

2.声学模型(Acoustic Model)

声学模型可视为一个单音节所构成的符号，如注音符号，英文字母、单字等，一般声学模型皆采用隐藏式马可夫模型技术建模。

语言模型一般分为规则模型及统计模型，以统计模型最广泛应用。统计语言模型是利用机率统计的方式，统计出音源讯号的规则性，其中以 N-Gram 最为效益最高。

3. 语音识别与检索

透过先前所述，由语音讯号取得一个音框，利用声学特征取得合适的特征点后，接着利用声学模型，将符号或音节建立相对应的声学模型，再透过语言模型统计出正确的取用词汇长度，最后再透过检索的技术，如 Viterbi 算法进行讯号比对，以达成语音识别的成效。

(二)小结

由先前叙述可以得知，进行人机互动操控，一般皆采用可得知深度之摄影机来辨识动态手势，但由于深度摄影机使用空间受限，且相较于单一简易摄影机成本较高。因此选择单一简易摄影机进行手势辨识，使用空间较不受限制，且现今行动装置上，皆采用简易摄影机。然而简易摄影机侦测肤色时易受光影及手势变动所影响，不易得知深度信息。因此需要额外的输入讯号，以补足简易摄影机视觉辨识技术之缺憾。由于语音识别发展十分成熟，且辨识率已相当高，可以语音来辅助单一简易摄影机无法取得深度信息之不足。

本章首先介绍选用之研究平台套件，接着说明所采用的静态手势及动态手势，最后介绍本文所采用方法之流程与步骤：

一、研究平台套件简介

为了验证本文所提方法之实验结果，本文扩增实境平台采用 NyARToolkitCS 函式库，计算器视觉函式库采用 EmguCV，并使用微软 C#语言编写程序，以获得多元且完整的.NET 对象及类别支持。也为了实作语音识别技术，利用微软语音识别 SDK 5.1 开发工具包进行语音识别。

若需训练使用者声调，需先至控制台之语音识别，在进阶语音选项中先选定语言，训练用户的声调并调整麦克风音量，如图二十语音识别设定示意图。

二、环境描述及手势定义

将说明整体系统架构，并定义所使用到的静态、动态手势，以及手势转换之状态说明。

(一) 系统架构

图二十语音识别设定示意图

本文所提「动态手势控制扩增实境虚拟对象」之整体系统架构(如图二十一)，共使用两台摄影机及 1 具麦克风，其中摄影机 1 撷取手势影像，并将动态手势影像经过个人计算机运算分析、将分析出的特征信息转换为控制信息，用于控制扩增实境的虚拟对象；麦克风撷取语音控制信息；另外摄影机 2 撷取扩增实境环境影像，透过个人计算机追踪与分析场景中的标记位置，结合动态手势之控制信息(虚拟对象位置、比例、旋转角度等信息)及语音识别结果，绘制变动后的三维虚拟对象，并混合扩增实境场景将结果绘制于屏幕窗口。

图二十一系统架构图

(二)手势定义

静态手势的转换与变化，可构建出动态手势。为了让用户轻易操控三维虚拟对象，本文设定不同之状态，以区别相同之手势。换言之，相同的手势在不同的状态代表着不同的意义。如此，可以定义较少的手势，来取代较为繁复的控制手势；对使用者而言，可以轻易且直觉的使用该系统。

1. 状态设定

要以手势正确控制三维虚拟对象，必须要知道控制「何时开始?」、「何时结束?」、「控制那个对象?」以及「做何动作?」。因此，本文归纳出三种指令群，分别为「对象选取指令」、「功能指令」、「开始/结束指令」。(如图二十二)

依据前述三种指令群的特性，我们可以划分出三个状态：(如图二十三)

(1) 预备状态：未出现「开始指令」前与出现「结束指令」之后，除「开始指令」有效外，余指令无效。

(2) 选取状态：在未完成选取对象前，仅选取对象指令有效。

(3) 操控状态：依各项「操控指令」，控制虚拟对象。

有了状态的区别，可以对不同状态下的相同手势赋予不同的意义。

图二十二指令群构思示意图

图二十三控制状态示意图

2.静态手势

静态手势定义须明确及不易混淆，能让使用者直觉及方便的运用，本文定义的静态手势如图二十四。(a)手势「1」代表「对象选取」及「对象移动」；(b)、(c)手势「2」代表「对象缩放」；(d)手势「3」代表「对象旋转」；(e)手势「4」代表「对象选取」及「确认操控」；(f)手势「5」代表「开始辨识」及「对象高度」；(g)手势「0」代表「结束操控」。

(a) (b) (c) (d)

图二十四静态手势定义

(e) (f) (g)

3. 动态手势

本文结合静态手势与状态改变之设计理念，以及实际操控之方便性，定义出动态手势。(如表一)

表一动态手势

(三)设定状态机

整体手势运作方式可以状态机来描述，如图二十五。状态机图中各单元状态可对应动态手势定义之手势指令或语音指令并用的方式，且与设定的「控制状态」相结合。

图二十五控制状态机简图系统流程

三、系统流程

图二十六为「动态手势控制扩增实境虚拟对象」之系统流程，主要分为手势辨识、语音识别、扩增实境及控制匹配(绘制)等四大部分。其中手势辨识区块主要撷取手部之主要特征，并辨识出各种不同手势，转换成操控信息、语音识别区块接收语音消息，并将辨识结果转成操控信息、扩增实境撷取标记对象位置等信息；最后由控制匹配结合手势、语音操控信息及标记信息，透过对象变动计算功能，计算出受控后的虚拟对象信息，并绘制至显示器，后续针对几项重要流程说明。

(一) 手势辨识流程

为了能快速且正确的取出手部区域，本文采用 Hsu 等人、所提之椭圆形肤色模型侦测方式，并将侦测出的肤色区域经预处理(高斯模糊 5*5、闭合运算 2 次)后转换为二值影像，为了过滤环境(或肤色侦测)的噪声，仅取最大连通的部分进行运算(使用连通区域的面积来做判断，只保留最大连通面积的连通区域)，结果如图二十七(b)。

图二十六系统流程图

图二十七手势辨识

(a)原始图像 (b)肤色侦测结果 (c)轮廓侦测结果

(d)多边形近似结果 (e)凸包计算结果 (f)非手指区域

(g)手势方向向量 (h)特征过滤 (i)指尖位置

1.指尖地址序列(Fcenter,n;其中0 ≤ n ≤ Fc − 1)：各指尖坐标位置，可借由指尖之对应关系，用来分析手指之移动方向。

2.手指支数(Fc)：可用来辨识静态手势。

3.整体肤色区域面积(SArea)：手部(肤色)区域面积，用来计算整体手势缩放时的补偿参考量。

4.非手指区域面积(PArea)：手掌(含手臂)的区域，用来计算整体手势缩放时的补偿参考量。

5.非手指区域中心(Pc)：可用来判断手指的整体方向。

6.非手指区域中心与非手指区域轮廓最短距离(Distance(Pc, NFArea))：可供指尖判断的条件。

7.旋转角度(Ra)：计算整体手指的方向性，供指尖判断的条件。

手部特征撷取详细流程如图二十八，首先将「手部区域撷取」所得的肤色区域，过滤出特征较为明显的轮廓后，接着利用凸包(Convex Hull)算法取出凸凹点，并分析出手指部分与非手指部分(含手掌、手臂)，进而判断手指指尖位置与支数。

图二十八手部特征撷取细部流程图

(二) 动态手势状态分析图二十九为状态分析流程图，经由分析连续的手部特征信息，可判断手势是否处于转换之过渡期。详细步骤说明如后：

1. 手势转换判断

辨识动态手势时，各手势间转换时手指的收放过程及手部与摄影机间距离的改变易造成误判，要正确分析手指区域的改变，尚须先考虑下列两个问题：

(1)非手指区域的误判，正常情形下，手部与衣服接触部分应为外壳的一部分，而手腕骨头突起处应不致造成连续外壳(如图三十)。而图三十(b)中，手腕骨头突起处被视为外壳的一部分，依凸包算法的特性，将会视其为连续外壳(凸段)，如此并非是预期的结果，且会影响手指区域与非手指区域面积，导致手势转换判断准确度低落；

(2)牵涉摄影机与手部之间距离不固定(整体手势面积不固定)，造成侦测误差。

图二十九状态分析流程图

图三十非手指区域误判示意图

本文考虑前述的两个问题，研拟「手势转换之侦测方式」并融入「面积补偿」的概念来正确判别手势是否于转换过程中。在手势特征撷取模块中，可计算出每个手势特征中整体肤色区域面积(SArea )、非手指区域面积(PArea )以及手指区域面积(FArea = SArea − PArea)。

首先单独考虑第一个问题，即摄影机与手部距离固定的状况下且手掌区域侦测有误时，手掌区域前后将有侦测错误的状况，如图三十(a)(b)，且其面积差值可轻易算出(PArean+1 − PArean = PAreaD)，该误判的面积将会被归类到手指区域面积中，故将其面积差值补偿回去，即可由其值是否为 1 来检测手指的转换，详细推导并归纳其关系如表二。

表二动态手势补偿关系(手部与摄影机距离固定)

为了解决第二个问题，将摄影机与手部区域距离不固定(整体面积改变)的条件导入，即将表一归纳之结果导入面积比的补偿，即可得到手指是否正在变换(转换)的判断式，推导过程详列于表三。

前述表列中，我们将在手部与摄影机距离不固定及非手指区域侦测偏差时，仍可使用做为手势是否正在改变的判断因子，即「手势转换之判断条件」。 (式 1)

2.动态计算

本文欲控制的对象为虚拟三维对象之移动、旋转及放大缩小，而一般的三维对象可简化利用三组参数进而达到此控制的目的，分别为三维空间中的中心位置、缩放比例及旋转角度。当判定手势为稳定状态(非转换中)，动态计算即将手部特征转化为该三组参数，并将结果混合手势关键特征输出至动态手势信息，动态手势信息如表四。如控制对象的移动时，利用图二十四(a)中手势「1」计算出指尖位移量，搭配图二十四(f)手势「5」调整对象的高度，可决定虚拟对象的三维空间中的中心位置。

表三动态手势补偿关系(手部与摄影机距离不固定)

表四动态手势信息

3.手势辨识

当手势被判断为非稳定状态(转换中)，手势辨识流程将持续分析手部特征信息，并输出手势关键特征。此时，动态手势信息中中心位置、缩放比例及旋转角度等 3 个参数设定为 NULL。

(三)控制匹配与绘制

此模块实作提到控制状态及控制流程，其中接收标记信息及动态手势(韩语音辨识)信息并转为操控信息。为达控制目的，我们可以弹性的方式调整此模块。控制匹配细部流程。(如图三十一)

1.流程控制

实作控制流程状态机(如图二十五)提供流程控制用，即仿真实作状态机的运作。

2.对象信息变动计算

配合流程控制对应的动作，结合标记信息计算，如本文所提空间转换矩阵(虚拟对象转换矩阵)，并输出至扩增实境流程。

图三十一控制匹配细部流程图

(四)手势辨识其他应用与功能模块更换

若要应用在不同的控制目标(目的)，可以应地制宜定义适合的手势，借由调整控制匹配模块，产生出不同的控制信息，以达控制之目的。

(五)在军事用途运用

1.班排战斗教练等训练

在军事用途中，手势是单兵(班、排)之间的通讯方式之一，具有静默及视距通讯的特点。但在实际单兵战斗的环境上，大多时候因保持隐蔽与掩蔽的状态，无法确保传达手势信息；另外，在练习上皆由领导干部认定手势是否正确，并于训练时机予以纠正或指导，无统一的手势正确与否的判别标准。为了克服这两项问题，可借由手势辨识系统来辅助。在实战场景下，可将学员手势借由手势辨识系统将手势转为信息传达；在教育训练时，则可做为手势是否正确的客观判断媒介。(如图三十二)

图三十二实战常用手势示意图

接着简述如何将本文手势辨识方法应用单兵手势判断，并进一步将手势转换为信息的简要流程(如图三十三)。可对应修改本文所提之状态分析模块及控制匹配模块，将单兵之手势借由本文所提之手势辨识方法转换为信息。若用于实战及教育训练，则能有更客观的手势判断标准，以及另一种静默且方便的通信(信息传递)手段。

可透过模块修订，广泛运用于单兵训练(如：通资电兵的旗号训练、单兵手榴弹投掷等)；若修订语音识别的模块，亦可辨识口令下达的正确性判别等运用，皆可依实际需求辅助。

图三十三单兵手势辨识流程图

2.模拟战场体验

运用生动的扩增实境平台，并辅以直觉的手势及声音控制，除可增加学员生学习兴趣外，并提供身历其境的体验。鉴于此原因，T亦设置「战场抗压模拟训练馆」，若以扩增实境平台，可实时切换场景，提供不同情境的战场抗压训练，并收经济及效益之利。

实际的例子如 HTC VIVE 的 VR 游戏平台，游戏画面仿真且写实，且仅以一套设备即可转换不同场景，提供不同的战场体验，值得T后续在战场模拟上的研究及运用。

3.危险设备操作

本文提出之「手势辨识技术」及「语音识别运用」适合室内环境的控制系统，可透过修改辨识区块的控制匹配模块，而应地制宜地运用；于军事相关应用，例如实时操控兵棋，或T高危险性作业之机械手臂远程操作等。

本实验将实际展示以手势对扩增实境虚拟对象位移、旋转、缩放及高度(相对于标记高度)变化之结果。首先说明系统功能画面，如图三十四，可分为手势辨识接口，以及扩增实境展示接口。

一、手势辨识界面

手势辨识接口如图三十四(a)，除可显示手势信息及肤色二值化影像外，另提供选择图像来源、预处理微调、选用肤色方法等功能，功能简述如后：

(一)影像来源

可选择影像来源，提供选取单一影像或影片，以及由摄影机撷取影像。

(二)预处理微调

为了适应不同环境背景所带来的噪声，预处理部分提供参数微调功能，可调整高斯模糊及闭合运算次数等参数。

(三)选用肤色

为了适应不同使用者及不同光照(或摄影机)条件下的肤色差异，可选取欲使用的肤色方法，以利肤色区域取得。本平台提供 Hsu 等人所提之椭圆形肤色模型侦测(Hsu)、HSV、YCrCb、EmguCV 内建的肤色侦测(Adaptive Skin Detector)等四种方法供选用。

二、语音识别接口(略，于背景执行)。

三、扩增实境展示画面扩增实境展示画面如图三十四(b)，除扩增实境功能外，另显示受控后的虚拟对象。整体系统在实际使用时，使用者仅需观看此画面，搭配用户手势即可控制虚拟对象或与虚拟场景互动。

四、效能测试

系统测试运用 800 至 900 帧(Frames) 之视讯，且采双摄影机各撷取 640x480 之影像，测试结果处理单帧整体时间约 25 毫秒(40fps)，可用于实时辨识。其中平均单帧处理双摄影机截图及预处理约 10.6 毫秒，手势辨识流程处理约 1.7 毫秒、扩增实境功能及三维对象绘制处理约 12.4 毫秒，以及显示接口处理 0.6 毫秒。

实验结果显示双摄影机影像撷取部分约占平均整体运算三分之一强，乃受限于摄影机撷取影像同步的等待时间及传输带宽所产生的硬件限制；实际手势辨识处理非常快速(约 1.7 毫秒)，可轻易运用于实时控制等方面之运用。

语音识别部分采事件触发，顾未列入系统测试部分。

五、实际操作展示

将扩增实境中的标记固定(为展示与阅读方便，扩增实境场景部分使用单一影像)，利用手势控制虚拟三维对象之位移、旋转、缩放及对象高度改变，结果分别如图三十五(a)至(d)。

图三十四系统功能画面

(a)对象位移功能展示

(b)对象旋转功能展示

(c)对象缩放功能展示

(d)对象高度功能展示

结论与未来研究方向

一、结论

本文提出运用基于视觉技术之动态手势辨识技术，不用局限于以标记或特殊硬件的扩增实境的互动方式。

本文提出之手势辨识技术，可透过修改而应地制宜地运用。于军事相关应用，例如实时操控兵棋、教育训练或T高危险性作业之机械手臂远程操作等。

由于现有行动装置配置之摄影机，易以语音辅助动态手势扩增实境互动设计，可轻易应用于现今行动装置上。

二、未来可朝以下几个方向研究：

(一)运用场景

本文所提手势辨识为核心解决方案，提供环境可控状况下运用(如：精密控制及教育训练使用)，较不适宜运用于复杂环境，如「双手遮蔽」、「多人(手)碰撞」等问题。未来可结合红外线、双镜头取得手势，以及景深等信息、动态侦测摄影机针对局部加强影像撷取、遮蔽预测等相关技术，可获得较佳手势辨识环境适应力；但须考虑使用遮蔽预测等技术，可能降低手势辨识的可靠度。

(二)双手动态辨识

本文已针对单手动态手势之研究，笔者已研究结合两手间距离、景深、交互手势之间关系，拓展为双手动态辨识。

(三)智能装置应用

现今智能装置大多附有语音输入及影像撷取功能，本文方法可轻易与现今智能型装置结合，达到直觉且便捷的控制，亦是未来可应用的可行方式之一。