行业观察站 | 科大讯飞：顶尖语音技术先锋

叨叨道 2017-09-16

展开全文

行业观察站

人工智能

2017年UXPA行业观察站的主题是人工智能(Artificial Intelligence, AI )是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品将会是人类智慧的“容器”。

采访摘要

被采访人：消费者事业群UED总经理— 王晟

采访主题：科大讯飞

采访方式：微信语音采访

王晟

现任科大讯飞消费者事业群用户体验部总监，多年互联网产品设计经验，加入科大讯飞以来，主要负责界面交互与语音交互设计工作。

访谈内容详情

Q：请问语音识别技术发展目前到怎样的程度？目前已涵盖的应用场景有哪些？

A：谈到语音识别技术发展的程度与目前涵盖的应用场景，首先需要了解影响语音识别应用效果的因素有哪些？它们主要包括：录音质量、说话方式、专业领域词汇等方面。

目前在语音交互方面，近场语音交互场景正确率可达到97%；远场语音交互场景在配合麦克阵列的情况下，5m距离的正确率达到90%，达到了实用门槛。

在面向人人对话的语音转写方面，近场演讲和即兴发言正确率可达到95%以上，也已达到实用门槛；会议场景达到86%以上，也接近实用；但如果在录音质量不能保证的情况下，会议场景仍待突破。

在了解主要制约因素后，目前涵盖的应用场景就比较清楚了。万物互联方向主要有：车载语音交互，家居语音交互，穿戴式设备语音交互等；信元数据方向主要有：语音输入、法院或者检察院庭审转写、政企会议转写、记者采访转写、医疗病历转写等等。

Q：国内外还有哪些其他公司走在语音交互技术的前沿呢？

A：其实语音交互这个概念从苹果发布Siri开始就经常被提到，近几年随着物联网的飞速发展，语音交互技术的重要性被越来越的多人认识。

国际巨头均在语音交互方向进行了布局，有代表的产品有：谷歌的Google home、亚马逊的Echo、苹果的HomePod等等。相对来说，亚马逊的语音交互平台Alexa最为全面，覆盖了从语音工具包到垂直技能的开发平台，已经建立起良好的生态。

在国内，科大讯飞一直是语音交互技术的领导者，从灵犀语音助手到叮咚音箱，均处于国内同类产品中的佼佼者。在开发平台方面，讯飞AIUI于2015就已经发布，在国内处于领先地位。

现在国内科技巨头也均布局了语音交互方向，比如阿里刚刚发布的首款智能音箱，百度与某些厂商合作推出的相关产品，相对来说百度的DurOS作为一个平台，为更多的智能硬件提供服务。除此之外，在一些不同的垂直领域，一些创业公司也已经通过深度打磨和优化取得了很好的效果。

Ｑ： 哪些核心技术决定了语音交互体验的成熟度？

Ａ：决定语音交互体验的因素跟产品定位有很大关系。

例如，在智能手表上，因为是近距离对话，基本不需要借助其他设备就可以满足语音的拾音质量。但在其他场景下，智能硬件产品所处的环境非常复杂，这时就必须使用专业的麦克风阵列设备取得相对稳定、高质量的输入语音，因此可以说麦克风阵列技术是语音交互技术成功的前提。

其次语音识别和语音合成技术的效果同样对于用户体验有着直接关系。

语音交互最为关键的是人机对话技术，包括交互理解和对话管理技术，当机器听到语音输入的结果后，交互理解技术要理解出是否存在一个有效指令，对话管理技术则是根据理解结果做出相应的动作。对于一些复杂的系统，对话管理时需要考虑的不光是当前的理解结果，还要考虑历史理解结果、外部数据查询结果等信息。因此交互理解及对话管理技术可以说是语音交互的大脑。

Ｑ：科大讯飞的产品开发是如何考虑用户体验的? 团队中哪些成员对用户体验负责呢? 各种角色的价值如何体现? 有体验设计师的角色吗?

Ａ：在产品开发前期，由产品和设计师先调研分析用户，明确目标用户，而后与开发人员一同，根据目标用户的使用场景分析明确用户需求，讨论产品的体验定义。

在设计阶段，设计师根据需求定义和体验定义来设计生成产品体验原型，在团队内部展示说明设计方案是否满足用户需求和达到体验目标。在这个阶段还需要招募用户测试，验证以及调整设计方案。

在开发阶段，产品、设计、开发一起完成产品功能框架搭建。团队通力完成产品实现，解决在开发过程中出现的具体问题。

上线后，通过收集分析线上数据和用户反馈，分析解决用户需求和体验上的问题，进一步优化迭代。

其实产品开发全流程中的角色都需要理解用户体验的价值，对用户体验负责。产品、设计需要对产品方向和体验方向负责，他们需要抓准目标市场和用户，才能定义产品和体验。设计师是贯穿整个产品开发流程的，对产品的用户体验有从始至终的、全方位的保障职责。开发和测试是产品实现的执行者，也是用户体验保卫者。

现在公司多数团队没有专门设置体验设计师这个职位，在实际产品开发过程中，需要设计团队来承担体验设计师的工作内容，但在一些前沿敏捷产品部门会有专门的体验设计师。

Ｑ：语音产品设计的开发流程是怎样的? 如何进行用户研究以及测试呢?

Ａ：语音产品设计的开发流程和其他产品大致相同，一切流程都是围绕用户为中心展开，大致步骤都是用户研究、产品定义、功能定义、到设计落地。但因交互方式不同，设计内容关注更多的是语音输入和语音反馈。

用户研究在产品策划的阶段就已经介入。通常以用户访谈、焦点小组、参与式设计、情景实验、问卷调查、日志研究等定性与定量结合的方法，去挖掘目标用户及特征，侧重点主要是目标用户态度。

在产品设计执行时，除了目标用户态度还关注目标用户行为，举例来说为了让用户在产品使用过程中像是在正常人与人对话，确保对话自然和高效。会进行大量的模拟对话，测试方式是系统与人对话时，让系统语音反馈定义的内容，通过观察用户自然语言输入和反馈，检验对话的自然度和用户满意度。

产品上线后更加侧重对行为研究，多使用数据挖掘、可用性测试、AB测试等定量分析方法。

Q：现今国内外在语音交互上是否有了成熟的设计标准或规范形成?

A：语音交互技术是产品导向非常突出的技术，对于不同的产品，设计标准和规范很难统一。需要根据具体的应用场景而定。

但是也应该看到一些国际巨头已经发布了一些软硬件整体方案，做到在其生态圈内的标准化，比如亚马逊发布7麦克风阵列的开发包，使用其配套硬件就可以实现和Echo音箱一致的声学前端处理。国内，科大讯飞的AIUI同样发布了多款麦克风阵列方案并提供配套的声学处理开发包，采用AIUI SDK的开发者就可以方便的集成AIUI的语音交互能力。

像麦克风阵列、语音识别、语音合成这些单项核心技术有成熟标准测试标准和方法。交互上的标准或者规范在学术界或者一些互联网公司已经有一些相关的研究，但是都具体在一些较小的垂直领域。

另外，随着语音交互的火热发展，近年来一些知名研究机构已经开始考虑如何客观的评测人机对话。比如深度学习大牛Yoshua Bengio今年牵头组织了一个智能对话评测，参赛单位提交一个对话系统，公布的评估方式是10分制打分。国内中国中文信息学会也于今年在第六届全国社会媒体处理大会-SMP2017上组织了中文人机对话技术评测，对人机对话中各种因素进行评测，相信类似评测比赛的开展会促进人机语音交互的发展。

Q：未来语音交互发展的趋势和前景?未来还会有什么样的应用场景呢?

A：传统交互方式已经存在多年，在物联网爆发的时代背景下，全新语音交互方式才刚刚走到前台。

目前已经能看到很多语音交互在电视、音箱、冰箱、空调等智能家居设备中应用，但交互过程还不够智能，说法受限、理解错误或者误触发等现象也时有发生，相对于语音识别与合成技术的成熟度，语义理解技术水平还相对比较低。未来自然语言理解技术的发展水平将决定着语音交互最终的技术发展。

由于垂直领域相对封闭的语言特性，语音交互肯定会在一些垂直领域首先得到成功，比如智能家居中的语音交互。当今世界硬件性能飞速发展，在海量数据的支持下，以深度学习为代表的研究工作不断提升各项技术水平，相信在不久的将来，在科幻电影中出现的全程自然语音交互将会成为现实。

Q： 有什么样的教育和工作经历的设计师才有机会踏入这个领域呢?

A：优秀的产品都是能够很好地满足用户需求的。理解用户、挖掘需求和场景、保证产品可用易用等设计方法和标准都适用于语音设计，所以传统的设计师可以很好地把原有的设计经验方法运用在语音产品上。

当然，好的语音设计可以让用户有很自然的对话体验，所以早期的语音设计师会有一定的语言学背景，但并不是说设计师一定需要有语言学背景才能踏入这个领域，只是我们认为语音设计师需要掌握沟通表达规则。

Q：对“人工智能大多是噱头，并没有很好地转换为用户价值”这一说法，怎么看？

A：不认可这种说法。目前确实有一些公司在利用人工智能的概念来炒作自己的产品，但科大讯飞在人工智能领域已经精耕细作很多年的时间，我们确实做了很多扎实的工作，推进人工智能的应用落地。

例如，在教育领域，通过个性化推荐技术，可以指导教师进行个性化教学，对学生推送个性化学习资源，在试用的学校中明显提升了学生的成绩。

在司法领域，我们通过语音识别技术，可以明显提高书记员、检察官的记录效率，庭审时长平均减少20%~30%，并更好的保证了庭审记录的完整性，于效率与质量方面，为法制社会建设贡献自己的一份力量。

在国家安全领域，通过语音识别、意图理解、大数据分析技术，实现诈骗电话分类和诈骗深度判定的主动情报发现，有效的减少电信诈骗的发生率等等。

我们理解外界对人工智能技术有所误解，可能的原因是目前有些人工智能技术的应用效果仍然不够完美。但近几年，随着深度学习的快速发展，加上产品应用中的数据闭环优化，很多人工智能技术已经取得非常显著的进步。在语音识别、图像识别等感知智能方面，机器已经达到或接近人类的水平，如果再针对行业进行深度的定制，在很多应用场景下已经可以明显改善用户的工作效率，体现人工智能的应用价值。

另外，我们的观点是，在人工智能技术实际不够完美的情况下，需要设计良好的人机互助方案，机器帮助人类从繁琐的初步工作中解放出来，以便我们能更多的关注在那些目前机器做的不够好的精细化工作上。

再次感谢您介绍我们的采访，谢谢！

（文中所涉及言论仅代表个人观点，仅供参考）

下期我们将会邀请另一位资深嘉宾接受采访

后续将围绕

“智能新时代：不一样的人机交互体验”

这个话题推出更多专家观点

敬请期待

UXPA中国成立于2004年，是中国本土的第一个非盈利性用户体验行业协会组织。UXPA中国致力于推动用户体验在中国的发展提高，提供一个专业的交流和学习平台，为中国最具影响力的用户体验组织。

经过13年的努力，UXPA中国在中国用户体验行业具有相当高的知名度及影响力，UXPA中国组织的活动或项目也获得国内外企业及行业人士的高度认可，聚集一大批大部分活跃在中国的用户体验专业人员、产品经理、关注用户体验行业发展的人群。

主办单位：UXPA中国

协办单位：简立方