分享

所有智能音箱都是智障,包括Siri !深度学习对此无能为力

 长夏江村 2019-01-24

图灵TOPIA

作者:Mingke

编辑:刘静 千鸟 李尔客

图灵联邦编辑部出品


【编者按】曾因《为什么现在的人工智能都像人工智障》一文引发广泛关注的作者Mingke又出神作。他对目前市场上主要的智能助理产品做了测试和分析,结果发现,这些产品智商依旧令人捉急,智障仍然还是那个智障。


原因在于,基于深度学习的自然语言理解,仅能提取概念实体,并不能进行逻辑推理,无法理解用户意图。


在Mingke看来,深度学习仅能处理明文信息,不能处理场景、声音、视觉等世界模型信息。在这种情况下,智能助理产品的出路是什么?


以下是图灵君对Mingke精彩观点和建议的介绍。


别的人工智能那么厉害,为什么你的Siri还是那么蠢?


▲ Sophia in AI for Good Global Summit 2017. 

Source:  ITU


2017 年 10 月,上图这个叫 Sophia 的机器人,被沙特阿拉伯授予正式公民身份。


Sophia 经常参加各种会、「发表演讲」、「接受采访」,比如去联合国对话,表现出来非常类似人类的言谈;去和 Will Smith 拍 MV;接受 Good morning Britain 之类的主流媒体的采访;甚至公司创始人参加 Jim Fallon 的访谈时一本正经的说 Sophia 是「basically alive」。



要知道,西方的吃瓜群众都是看着《终结者》长大的,前段时间还看了《西部世界》。在他们的世界模型里,「机器智能会觉醒」这个设定是迟早都会发生的。


普通大众开始吓得瑟瑟发抖。不仅开始担心自己的工作是不是会被替代,还有很多人开始担心 AI 会不会统治人类。「未来已来」,很多人都以为真正的人工智能已经近在咫尺了。


只是,好像总感觉有哪里不对:「等等,人工智能都要威胁人类了,为啥我的 Siri 还那么蠢?」


 「 不要日本菜 」测试


早在 2016 年底,Mingke就做过一个测试,对几个智能助理提一个看似简单的需求:「推荐餐厅,不要日本菜」。


各家的智能助理都给出了一堆餐厅推荐,结果,全是日本菜。


2 年过去了,智能助理在这个问题的处理上有进展么?再做一次测试。



结果是依然没有解决。「不要」两个字被所有智能助理一致忽略了,推荐的仍然全是日本菜。


▲ Source: Dumb And Dumber: Comparing Alexa, Siri, Cortana And The Google Assistant, Forbes, May 2018


皇帝的新衣


回过头来,我们再来看看那位沙特阿拉伯的公民,Sophia。你发现问题了吗:苹果、谷歌和亚马逊投入了无数金钱和科学家打造的智能助理蠢成这样,凭什么这个 Sophia 能一鸣惊人?


答案是, Sophia 的「智能」是个骗局。


可以直接引用 Facebook人工智能团队首席AI科学家Yann LeCun 对此的评价,「这完全是鬼扯」。




简单说,Sophia就是一个带喇叭的木偶——在各种大会上的发言和接受采访的内容其实都是人工撰写的,然后用语音合成做输出。然而,这些却被宣传成是Sophia「人工智能」的自主意识言论。


考虑到大部分吃瓜群众是通过媒体渠道来了解当前技术发展的,跟着炒作的媒体都是这场骗局的共犯,比如被点名的 Tech Insider。这些不知道是无知还是无良的文科生,真的没有做好新闻工作者份内的调查工作。


当前对话系统的本质:填表


对话智能的交互(CUI, Conversational UI)是个黑箱:终端用户能感知到自己说出的话(输入)和机器人的回答(输出)——但是感觉不到处理的过程。就好像跟人说话,你并不知道他是怎么想的。


虽说每家的黑箱里面都不同,但是最底层的思路,都万变不离其宗,核心就是两点:听人话(识别)+ 讲人话(对话管理)。


「 AI如何听懂人话 ?」


我们来看一个例子。


在生活中,如果想要订机票,人们会有很多种自然的表达:

「订机票」;

「有去上海的航班么?」;

「看看航班,下周二出发去纽约的」;

「要出差,帮我查下机票」;

等等等等


可以说,「自然的表达」有无穷多的组合(自然语言)都在代表「订机票」这个意图。而听到这些表达的人,可以准确理解这些表达指的是「订机票」这件事。


在过去,要理解这么多种不同的表达,对机器是个很大的挑战。


自然语言理解这个技能出现后,可以让机器从各种自然语言的表达中区分出来,哪些话归属于这个意图。比如经过训练后,机器能够识别「帮我推荐一家附近的餐厅」,就不属于「订机票」这个意图的表达。


并且,通过训练,机器还能够在句子当中自动提取出来「上海」,这两个字指的是目的地这个概念(即实体);「下周二」指的是出发时间。


这样一来,看上去「机器就能听懂人话啦!」。


但是任务类的对话智能,往往不止是语音控制这样一轮交互。如果一个用户说,「看看明天的机票」——这表达正常,但无法直接去执行。因为缺少执行的必要信息:1)从哪里出发?和 2)去哪里?


这就涉及到了对话语言的生成。


「 AI 如何讲人话?」


决定「该说什么话」,才是对话系统的核心——无论是硅基的还是碳基的智能。但是深度学习在这个版块并没有起到什么作用。


在当前,处理「该说什么」这个问题,主流的做法是由所谓「对话管理」系统决定的。


目前所有任务类对话系统,无论是前段时间的 Google duplex,还是智能客服或者智能助理,最核心的对话管理方法,有且仅有一个:「填槽」,即 Slot filling。


那么这个「填槽」究竟是个什么鬼?嗯,不搞开发的大家可以简单的把它理解为「填表」:好比你要去银行办个业务,先要填一张表。


如果这张表上的空没有填完,柜台小姐姐就不给你办。她会红笔给你圈出来:「必须要填的空是这些,别的你都可以不管。」你全部填好了,再递给小姐姐,她就去给你办理业务了。


还记得刚刚那个机票的例子么?用户说「看看明天的机票」,要想执行「查机票」,就得做以下的步奏,还要按顺序来:



2018年5月,Google I/O 发布了 Duplex 的录音 Demo,场景是 Google Assistant 代替用户打电话去订餐厅,和店员沟通,帮助用户预定位子。


那 Google 的智能助理(后称 IPA)又怎么知道用户的具体需求呢?跑不掉的是,用户还得给 Google Assistant 填一张表,用对话来交代自己的具体需求,比如下面这样:


▲图中左边是一个使用 Google Assistant 订餐厅的真实案例,来自 The Verge。


「 当前对话系统的局限 」


还记得之前提到的「不要日本菜」测试么?


当前基于深度学习的 NLU 在「实体提取」这个技术上,就只能提取「实体」。


而人能够理解,用户这个表述指的是「排除掉日本菜以外的其他选择」。这是因为人除了做「实体提取」以外,还根据所处语境做了一个对逻辑的识别:「xx 以外」。然后,自动执行了这个逻辑的处理,即经过推理去进一步理解,对方真正指的是什么(即指代)。


人类这个逻辑推理的过程,并不依赖于某个之前设计好的步骤(从 1 到 5)。


更麻烦的是,逻辑的出现,不仅仅影响「实体」,还影响「意图」:



「hi Siri,别推荐餐厅」——它还是会给你推荐餐厅;


「hi Siri,除了推荐餐厅,你还能推荐什么?」——它还是会给你推荐餐厅。


中文英文都是一样的;Google assistant 也是一样的。


想要处理这个问题,不仅要识别出「逻辑」,还要正确判断出这个逻辑是套用在哪个实体,或者是不是直接套用在某一个意图上。这个判断如何做?用什么做?都不在当前 SLU 能处理的范围内。


理解人类对话的本质:思维


我们首先要了解需要解决的问题,才可能开展解决问题的工作。在对话领域,我们需要知道人们对话的本质是什么。


举个例子:你是一位 30 岁出头的职场人士,每天上午 9 点半都要经过办公楼的旋转门,进到大堂然后刷工牌进电梯,去到 28 楼你的办公室。今天是 1 月 6 日,平淡无奇的一天。你刚进电梯,电梯里只有你一个人,正要关门的时候,有一个人匆忙挤进来。


如果匆忙进电梯来的是你的项目老板,而且假设他和你(多半都是他啦)都很关注最近的新项目进展,那么你们要开展的对话就很多了。


在电梯里,你跟他打招呼:「张总,早!」, 他会回你「早啊,对了昨天那个…」


不待他问完,优秀如你就能猜到大概后面要聊的内容是关于新项目。甚至,你可以通过昨天他不在办公室,大概漏掉了这个项目的哪些部分,来推理你这个时候应该回复他关于这个项目的具体哪方面的问题。


「昨天你不在,别担心,客户那边都处理好了。打款的事情也沟通好了,30 天之内搞定。」你看,不待张总问完,你就能很棒地回答上。这多亏了你对他的模型的判断是正确的。


一旦你对对方的情景模型判断失误,那么可能完全「没打中点上」。


「我知道,昨天晚上我回了趟公司,小李跟我说过了。我是要说昨天晚上我回到办公室的时候,你怎么没在加班呀?小王,你这样下去可不行啊……」


所以,人们在进行对话的过程中,并不是仅靠对方上一句话说了什么(对话中明文所包含的信息)就来决定回复什么。这和当前的对话系统的回复机制非常不同。


基于世界模型的推理 


对世界的感知,包括声音、视觉、嗅觉、触觉等感官反馈,有助于人们对世界建立起一个物理上的认识。对常识的理解,包括各种现象和规律的感知,在帮助人们生成一个更完整的模型:世界模型


每个人的世界模型都不完全一样,有可能是观察到的信息不同,也有可能是推理能力不一样。世界模型影响的是人的思维本身,继而影响思维在低维的投影:对话。


让我们从一个例子开始:假设现在咱们一起来做一个不那么智障的助理。我们希望这个助理能够推荐餐厅酒吧什么的,来应付下面这样的需求:



当用户说:「我想喝点东西」的时候,系统该怎么回答这句话?我相信大家都了解,我们可以把它训练成为一个意图「找喝东西的店」,然后把周围的店检索出来,然后回复这句话给他:「在你附近找到这些选择」。


恭喜,咱们已经达到 Siri 的水平啦!


但我们要做的是不那么智障的智能助理。这个「喝东西的店」是奶茶点还是咖啡店?还是全部都给他?


嗯,这就涉及到了推理。我们来手动模拟一个。假设我们有用户的 Profile 数据,

假设我们有用户的 Profile 数据可用:如果他的偏好中最爱的饮品是咖啡,就给他推荐咖啡店。



这样一来,我们就可以更「个性化」的给他回复了:「在你附近找到这些咖啡店」。


这个时候,咱们的 AI 已经达到了不少「智能系统」最喜欢鼓吹的个性化概念——「千人千面」啦!


然后我们来看这个概念有多蠢。


一个人喜欢喝咖啡,那么他一辈子的任意时候就都要喝咖啡么?


人是怎么处理这个问题的呢?如果用户是在下午 1 点这么问,推荐咖啡店就还好;如果是在晚上 11 点呢?我们还要给他推荐咖啡店么?是不是应该给他推荐一家酒吧?又或者,如果今天是他的生日,那么我们是不是该给他点不同的东西?或者今天是圣诞节,该不该给他推荐热巧克力?


你看,时间是一个维度,在这个维度上的不同值都在影响给用户回复什么不同的话。




时间和用户的 Profile 不同的是:


1. 时间这个维度上的值有无限多;

2. 每个刻度还都不一样。比如虽然生日是同一个日期,但是过的是几岁的生日却不同。



除了时间维度以外,还有空间维度。


于是我们把空间这个维度叠加到时间上去。你会发现,如果用户在周末的家里问这个问题(可能想叫奶茶外卖到家?),和他在上班时间的办公室里问这个问题(可能想出去走走换换思路),咱们给他的回复也应该不同。


光是时空这两个维度,就有无穷多的组合,何况时间和空间,只是世界模型当中最显而易见的两个维度。还有更多的,更抽象的维度存在,并且直接影响与用户的对话。比如,人物之间的关系;人物的经历;天气的变化;人和地理位置的关系(是经常来出差、是当地土著、是第一次来旅游)等等等等。


深度学习无能为力


至此,影响人们对话的,光是信息(还不含推理)至少就有这三部分:明文(含上下文)+ 场景模型(Context)+ 世界模型。


普通人可以毫不费力地完成这项工作,但深度学习只能处理基于明文的信息。对于场景模型和世界模型的感知、生成以及基于模型的推理,深度学习统统无能为力。


这就是为什么现在炙手可热的深度学习无法实现真正的智能(AGI)的本质原因:不能进行因果推理。


「 单靠深度学习搞不定语言,现在不行,将来也不行 」


在人工智能行业里,你经常会听到有人这么说,「尽管当前技术还实现不了理想中的人工智能,但技术是会不断演进的,随着数据积累的越来越多,终将会实现让人满意的人工智能。」

如果这个说法是指寄希望于仅靠深度学习不断积累数据量,就能翻盘——那就大错特错了。


无论你怎么优化「马车」的核心技术,比如使用更壮、更多的马,都无法以此造出汽车(下图右)。



解释人工智障产品  


以上,我们了解到人们对话的本质是思维的交换,而远不只是明文上的识别和基于识别的回复。当前的人工智能产品完全无法实现这个效果。当用户带着人类的世界模型和推理能力来跟机器用自然语言交互时,就很容易发现破绽。


  • Sophia 是一个技术上的骗局(凡是鼓吹 Sophia 是真 AI 的,要么是不懂,要么是忽悠);


  • 现在的 AI,都没有真正的智能(不存在推理能力,包括 Alpha go 在内);


  • 只要深度学习还是主流,就不用担心 AI 统治人类;


  • 对话产品用起来感觉智障,都是因为想跳过思维,直接模拟对话(而现在也只能这样);


  • 「用的越多,数据越多,智能会越强,产品就会越好,使用就会越多」——对于任务类对话产品,这是一个看上去很酷实际上不靠谱的观点;


  • 一个 智能助理,能对话多少轮,毫无意义;


  • 先有智能,后有语言:要实现真正意义上的自然语言对话,至少要实现基于常识和世界模型的推理能力。而这一点如果能够实现,人类可能真的需要开始担心人工智能了。


  • 不要用NLP评价一个对话智能产品:年底了,有些媒体开始出各种 AI 公司榜单,其中有不少把做对话的公司归在 NLP 下面。这就好比用触摸屏来衡量一款智能手机。在这儿我不是说触摸屏或者 NLP 不重要 (Essential),反而因为太重要了,这个环节成为了每一家的标配,以至于在这方面基本已经做到头了,差异不过 1%。


  • 对于一个对话类产品而言,NLU 尽管重要,但只应占个整体配件的 5-10% 左右。更进一步来说,甚至意图识别和实体提取的部分,产品间的差异也远小于对话管理部分的差距。真正决定产品的是剩下的90%的系统。


至此,是不是有一种绝望的感觉?这些问题学界和行业大牛都没有解决方案,或者说连有把握的解决思路都没有。


那么,是不是做对话智能这类产品的上限就是这样了?


不是。对于一项技术而言,可能确实触及上限了;但是对于应用和产品设计而言,并不是由一个技术决定的,而是很多技术的结合,这里还有很大的空间。


作为产品经理,我们应该怎么做呢?


必须承认的事实是,人工智能创业团队最基础的认知计算能力区别不会太大,毕竟大家都是基于大牛们发表的最新论文。这意味着对话式人工智能公司单纯比拼深度学习技术没有太多意义。

 

市面上以深度学习为基础的对话类产品,语义理解应该只占整个产品的5%—10%。如果混合使用其它技术工具,比如DL+GOFAI(Deep learning+Good old fashion AI),势必会增加开发团队和设计的发挥空间。

 

GOFAI是John Haugeland 首先提出的,是在深度学习火起来之前的symbolic AI,也就是专家系统。目前AI领域从业者看不上的“if then”讲的就是这个。

 

确定产品边界很重要

 

具体到产品设计,对话式人工智能产品的设计原则可以归纳为存在即被感知。换句话说,产品设计应该围绕如何让用户感觉和自己对话的AI是有价值的。

 

对于眼下的弱人工智能产品来说,产品设计首先要设定好产品的边界,以及定好“越界时给用户的反馈”。而后产品经理就可以在设定的范围内发挥想象力,组装出产品。

 

比如制作一个树洞机器人,可以把产品定义为一个好的听众,让用户把心中的压力烦恼倾诉出来。


 

可以看出这个产品的边界非常明确,主要是系统通过一些语言的反馈,鼓励用户继续说,而不是鼓励用户期望对话系统输出很多正确且有价值的话。例如下文中的对话:

 

“我从来没有这么考虑过这个问题,你为什么会这么想呢?”

“关于这个人,你还有哪些了解?”

“你觉得他为什么会这样?”

 

这样产品就大幅减轻了对自然语言生成的依赖,同时降低了对话背后的“场景模型”、“世界模型”,以及“常识推理”这些高纬度的模块需求。鉴于目前的技术水平,对话式人工智能产品的边界,应该远离严重依赖世界模型和常识推理才能进行对话的场景。

 

智能交互的核心是内容,并非交互

 

对用户来说,使用对话式人工智能产品的核心诉求是获取所需信息,解决相关问题。

 

而眼下很多人工智能公司号称产品能进行多轮对话,以彰显智能程度。实际上,在达到目的且不影响体验的前提下,对话轮数越少越好。本质上,对话只是用户获取产品背后内容的交互方式而已。

 

那对话智能产品如何体现获取“内容”或者“解决问题的能力”呢?

回顾工业革命带来的革命性变化,其特征之一就是取代了重复体力、重复脑力的工作,比如农民、文员类工作大量消失。

 

从这个角度来说,智能对话类产品首先替代的就是典型意义的智能客服团队。假设智能客服跟前台小姐姐的职能差不多。一般而言,前台小姐姐的主要工作和专业技能并没有关系。她们最重要的技能就是对话,准确点说是用对话来了解用户需求,把不合适的需求过滤掉,再把需求转给专家去解决。

 

想象一下大量被外包的企业呼叫中心就知道客服的存在有多薄弱了。

 

不过对话式人工智能产品并非止步于取代智能客服,它需要更进一步,代替或者辅助某个领域专家。

 

从这个角度出发,对话智能类产品最核心的价值,是进一步代替用户的重复思考。Work on the mind not the mouth。

 

事实上,一位合格的人工智能产品经理应该明确AI技术归AI技术,产品归产品,应该带着做产品的目的来使用AI,而不是AIPM来实现AI。



为此AIPM应该具备以下特质:1、懂商业,理解价值;2、懂技术,理解手中的工具(深度学习+GOFAI);3、懂人,心理和语言。

 


总的来说,目前对话 AI 的技术还在第一阶段(蓝色旗帜位置),处于探索的早期,称不上高速发展。黑箱的情况,会使得这个周期(第一阶段)可能比移动时代更长。就目前学术界、工业界的进展来看,第二种技术还没有看到影子。

 

由于深度学习在对话智能中只扮演了一部分角色,因此大家可探索和成长的空间还非常大。但正因为如此,在可预见的将来,技术并非对话类智能产品的壁垒,数据和设计才是。

 

值得一提的是,上述提及的数据不是指用来训练的数据,而是供给端能完成服务的数据;能够照顾用户整个生命周期的数据;除用户明文以外的数据;影响用户脑中的环境模型、影响对任务执行相关的常识推理数据等。


随着IOT的发展,终端设备厂商与用户直接打交道,最有可能掌握这些数据。联想到近期BAT以及小米、思必驰、旷视科技等企业不断抛出的AIOT战略,可以瞥见互联网公司、创业公司嗅觉之灵敏。


过去几年间,大大小小的公司纷纷押注智能音箱,以期抢占IOT时代的入口。可现状不如人意,用户使用智能音箱最常见的功能还是天气,也没有对智能音箱产生依赖。


随着5G、云计算等技术的发展,任意一个联网设备都可能具备语音交互和传递服务的能力,削弱了超级终端存在的可能性。


倘若真如此,随着更丰富入口终端设备的涌现,可能移动时代以流量为中心的商业模式将不复存在,新的商业模式将诞生。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多