如何打造一款中国的Alexa?

学习雪雪 2017-05-13

展开全文

如今的Amazon Alexa是一个庞大的系统：软件端有7000多个第三方语音Skill应用，硬件端嵌入了Alexa的产品几乎覆盖了智能生活的每一个方面。

可早在2015年，Alexa Skill Kit刚开放，Skill Store只有10来个技能，Alexa自己也只能完成为数不多的任务，例如：简单问答，播放音乐，读电子书，设置闹钟，设置提醒，遥控一两款智能灯和智能开关。总之就是比Siri能做的事情少，又没有Google那么能聊。

可是用户对Echo的评论却出乎意料地好。用户们并不在意Alexa的陪聊能力到底有多高，他们的期望很简单：我不用走到你跟前，给你个简单指令，你照做。

Echo很好地达到了这个期望值。首先，它是一个音箱而不是“机器人”，用户理所当然地明白它要能播放音乐。有了这些，Echo作为音箱算是及格，用户的反馈也就相对积极，再接上实用的读电子书和控制智能家居功能，就已经超越用户预期了。

反观在“人工智能”被过度宣传的这几年，不少产品过度哄抬了自己的能力，导致用户期望值过高，最终连及格也达不到。想想那些年我们调戏过的Siri，似乎可以做很多事情的样子，可是除了被调戏，有多少人能准确说出它还能干些啥？

一定要有功能性，满足刚需

那么，如何打造一款中国的Alexa? 我们采访了蓦然认知的CEO 戴帅湘。

戴帅湘是前百度主任架构师，曾长期担任百度Query理解方向负责人，曾荣获百度语义技术的最高奖。他在2010年提出“Query改写模型”方案，提升了百度引擎的搜索相关技术，带来大幅广告收益；他拥有20多项专利技术，分布在自然语言处理、语义搜索、自动问题求解等多个领域。

在to C的智能音箱产品上中国市场已经撕的不可开交，而to B这一块，语音产品广泛的应用前景。戴帅湘认为切入to B领域，通过语音服务来满足用户的痛点是一片蓝海。

智能语音服务能够满足的刚需

对于语音产品，我们非常看好以下场景：

智能硬件：非常看好传统硬件的品类升级，比如智能耳机和智能音箱。又比如笔记本和电视上加上语音功能，可以想象的一个场景是，通过遥控器来控制电视机来选电视栏目或者电影效率远远低于直接语音输入。

智能安防：简单的说，可以给所有的摄像头加上麦克风阵列，增加语音模块。

智能医疗：语音在这个领域有诸多应用，一个例子是电子病历，简单的说就是医生在诊断过程中语音输入便可以直接形成病历。另外一个例子是医学检测有些是通过声音检测来完成，那么直接加上语音模块既能完成交互又可以检测，可以淘汰掉屏幕等交互方式。

教育：可以将麦克风阵列应用于多媒体教室，另外一个应用领域则是远程家教。

智能玩具：具有语音交互功能的玩具更吸引孩子们的注意，但是考虑到玩具成本以及孩子的习惯，单麦识别算法是当前比较适合的方案，例如360儿童机器人，360故事机等

汽车市场：在手和眼镜都被占据(no hands no eyes)条件下，语音是个最好的交互方式，汽车上的语音产品是兵家必争之地。

语音将成为下一代智能设备重要的交互方式是一个确定的事情，随着行业的进步，更优质的语音产品将会更低成本进入生活方方面面，为我们的生活和工作带来更多便利。

蓦然认知在上述领域已早有布局，比如最近蓦然宣布和暴风合作推出对话交互电视X5ECHO。戴帅湘表示，除智能电视代表的智能家居之外，蓦然认知还在布局智能车载、智能客服等领域，目前展现在暴风TV上的功能只是冰山一角，智能交互决策引擎Mor 还在继续开发和不断优化中。

(蓦然认知AI对话交互 TV原型系统演示)

智能语音服务需要解决的技术难点

那么要满足这些需求，蓦然认知的CEO 戴帅湘表示一个智能语音服务需要克服三大技术难点：

第一是自然语音交互。想让机器理解人的语义，需要将人类的自然语言变成程序讲义，让机器理解程序变为一个执行过程。机器必须先听明白用户在表达什么，才能进行对话。

第二是知识的表示和推理。人类发送指令的时候，意义未必明确，目前机器的浅层次理解仍停留在搜索引擎。往往当用户对机器发出“我要听周杰伦”的指令时，它只是列举周杰伦的歌单罢了。但知识的表示和推理是一套连续的验证和推理过程。

在知识的表示和推理背后需要知识图谱，我们可以将每个垂直领域的覆盖看作是垂直知识的构建，但是并不是场景越多，规则就要越多，而是尽可能使用更抽象更通用的规则。

每个人的思维路径是有差异的，同样是选餐厅，有的人会优先考虑团购信息，有的人会优先考虑菜系。所以在面对人类的思维时，弱化规则，只在必要的节点处设置规则，这样既能保证对话应用的任务导向性，又能给予对话足够的灵活度。

第三是自动服务对接。订餐、订票、接音乐、接电视……此类服务需求量级巨大。仅音乐一项就有多少个软件？网易、酷狗、QQ、虾米……每一个软件都是不同的接口，传统的对接方式需要耗费大量人力。

做自动服务对接，戴帅湘对此有独特的理解，戴帅湘曾在“框计算”领域中深耕多年（“框计算”即用户只要在“框”中输入服务需求，系统就能明确识别，并分配给用户最优的内容资源或应用提供商）。自动方式能够节省资源和时间，而做智能语音服务如果能够开发程序实现让机器自动读取、选择接口接入可以事半功倍。

多轮对话的重要性

相比微软的小冰和小娜、苹果的Siri、谷歌的Google Now、百度的度秘等交互引擎，戴帅湘团队开发的Mor引擎一大特点就就在于上下文关联的多轮对话，并且具有场景移植性。

语音助手为的就是在对话中完成服务，如果你想获取信息，它能给你有效的信息，如果你想让它帮你完成任务，它能高效准确地完成。

从这个角度，有很多场景需求需要多轮对话，并能准确地理解连续上下文才能最终达到用户预期的服务。

但戴帅湘同时也表示，多轮对话并不是轮次越多越好，能不能通过对话的方式，帮助人获取信息、完成任务，对话精准和服务精准才是终极目标。

强调生成模型

戴帅湘认为目前在自然语言理解领域里要求大量训练样本的深度学习适用场景比较有限，他们更多的是使用小样本的生成模型。

（蓦然认知创始人戴帅湘）

自然语言理解领域的语义表示是有组合性，而推理的建模强调因果性，很多时候自然语言理解需要有目的、有计划的有步骤的优化过程，而且强调步骤之间的逻辑关系，而现阶段的深度学习更像是一个黑盒子，他只可解决自然语言的中的部分问题，特别当涉及到对话领域，上下文的理解时，深度学习的黑盒子就显得局限很多。

目前比较适合的机器学习算法是生成模型，但是生成模型需要针对问题去建模，其强调的是建模的重要性。利用此类方法建模，一般需先针对问题中的子问题进行“元模型”建模，然后通过有限的推理方法来组合成更大的模型，其推理过程体现的因果关系清晰可见，可以从结果反馈来追本溯源，逐步优化推理中的每个环节，即使在小样本集上往往也能训练出好的效果；而且生成模型推理过程中涉及的参数比较少，一般都对应具体的物理含义，具有很好的可解释性。