【原】解开“机器的因果”：人机自然交互为何成为阿里AI观的起点

脑极体 2020-10-30

展开全文

很快《复联3》会上映，大伙喜闻乐见的钢铁侠又要来了。

围绕钢铁侠，有个有意思的现象值得我们开开脑洞：应该每个人都想要战甲里搭载的AI程序“贾维斯”，但所有人都在担心会不会有一天出现想要毁灭世界的AI机器人，奥创。

很多大人物，比如说霍金，都在提醒我们要警惕AI的潜在威胁。但仔细想想，贾维斯和奥创到底有什么区别呢？只是单纯的善恶之分？可善恶又由谁来分辨？

机器应该用智能服务人类，但不能有“过分的智能”，堪称AI领域的“先有鸡还是先有蛋”问题。

或许可以切换到另一种思路去思考这件事：贾维斯之所以让人喜欢，是因为他能读懂和理解钢铁侠的各种需求，令主动提供服务。也许我们在心底期待的，只是机器可以与人进行无成本的沟通与理解，而不是要拥有独立的人格与智慧。

这样的逻辑下，AI服务于人类的基本价值就落到了那个既复杂又简单的名词上：人机交互。

今天我们来探讨这个问题，是因为刚刚清华大学与阿里巴巴宣布达成战略合作，共同成立清华大学- 阿里巴巴自然交互体验联合实验室。这个实验室的目的在于探索“下一代人机交互”的未来。

据悉，双方将以“人”为中心，探索“人-机器-环境”之间的关系，让机器以更自然的方式与人类互动、服务人类。

跟众多企业与大学联合设立的实验室相比，清华大学- 阿里巴巴自然交互体验联合实验室的独特之处在于，它专注于解决一个十分急迫的问题。这个问题涉及广阔的产业与市场可能，甚至关乎于马云所说要让“机器更像机器，人更像人”的AI价值观。

让我们先从自然交互今天面临的一些问题说起。

“五感”合一：人机交互

的拐角在何处？

在智能音箱“狂轰滥炸”过之后，或许很多人认为，今天的AI带来的自然交互能力已经相当成熟。但事实上，大伙可能还是有点乐观了。

当然，AI带来的语音识别、语义理解、NLP解决方案，以及花样繁多的传感与机器视觉技术，正在打开人机交互的新脑洞：过去只能通过键盘、鼠标、触屏进行命令输入的机器，正在开始以自然方式与人沟通。

比如我们已经可以语音控制音箱、电视和家居，人脸识别装置也开始普及到生活当中。

但这还远远不够。回想一下，为什么我们有时候打字说不明白的事，就想要电话沟通？有时候电话沟通也不行，必须当面谈谈才可以？

这是因为，人与人之间的交互是相当复杂的。不仅仅是语言在起作用，音色音调、表情、肢体动作，甚至一个人隐含的情绪、气势，都是人们之间进行自然交互的一部分。

但很显然，今天的AI还做不到这点。

举个例子，今天搭载语音交互的空调开始成为新时尚。用语音操纵空调当然相比遥控器方便了很多，但也无非就是换了一种遥控方式而已。消费者获得的实质价值并没有提升。但如果空调不仅能听懂你，还可以看到全家人的位置、穿了多少衣服，还可以感知到屋子里的温度、湿度，甚至每一个用户的体表温度。那么空调就可以自主分析制冷模式，给每个人提供最适合的降温方案。毕竟空调病或者冷气吹太多导致的感冒，发生几率将大大降低。

这就是给机器加上“五感”，进行多模态综合感知的魅力——机器不仅是接受遥控的一方，它可以主动理解人类，通过智能运算得出更好的主动服务方案。

此外，目前AI在处理自然交互的时候，完全依托于计算机科学的知识系统。这就导致其会忽视人类在情绪、心理甚至隐喻层面的表达需求——听起来好像有点太难为人家机器了，但是没办法，精益求精嘛……

再举个例子，人的语言中是带着各种情绪的。虽然说一样的话，但附带的情感可能完全不同。我们回家让音箱放一首歌，可能是因为我们非常开心想要来点助兴的音乐，也可能是有事不顺心，想要安慰一下自己。

假如机器可以听出来人类语言中附带的情绪，可以观察到用户是低沉还是兴奋。那么给出的服务将完全不同，一句来自机器的问候下，可能很多让人不开心的事都烟消云散了。

模态综合与心理解读，就像这两座大山一样横亘在AI自然交互的家门口，他们是问题，同时也是拐点和机会。而此次阿里与清华的合作，核心诉求正是要搬走这两尊山神。

在探索“下一代人机交互”的路上，清华与阿里巴巴将在情感认知计算、实体交互、多通道感知等领域开展研究，不但要让让机器具备听觉、视觉、触觉等综合性的“五感”，还要加强其识别理解人类情感的能力。

假如能通识五感，理解情绪的自然交互方式出现，机器智能将开启的，绝不仅仅是一扇大门。

被忽略的商业价值：“五新”

增长元点藏于万物智能

去年年底的时候，我们报道过阿里巴巴十二位科学家对今年科技走势的预测。其中科学家们有一点共识非常值得注意：语音、视觉、传感连接为一体的多模态机器交互技术，将在今年催生万物智能的爆发。

几天之前，阿里在深圳云栖大会上宣布，IoT将成为继电商、金融、物流、云计算之后的第五条主赛道。显然从产业层面印证了科学家们对今年的判断。

这或许说明了，新一代的人机交互并不只是停留在实验室里。而是正在以高调姿态走入产业世界，甚至成为“五新”战略的重要支点。

举个简单的例子，我们就能看到多模态的自然交互在实际生活中多么重要。阿里有一个在地铁站进行语音识别购票的案例。其要解决的核心问题是地铁站中环境嘈杂，要准确识别到购票者语音很不容易。这就要求机器除了进行语音交互，拥有优质的声纹识别、降噪算法之外，还需要进一步确认买票人。阿里的解决方案是在售票机前加入人脸识别装置，通过人脸和唇形识别来判断究竟是谁在买票。