所有智能音箱都是智障，包括Siri !深度学习对此无能为力

长夏江村 2019-01-24

展开全文

图灵TOPIA

作者：Mingke

编辑：刘静千鸟李尔客

图灵联邦编辑部出品

【编者按】曾因《为什么现在的人工智能都像人工智障》一文引发广泛关注的作者Mingke又出神作。他对目前市场上主要的智能助理产品做了测试和分析，结果发现，这些产品智商依旧令人捉急，智障仍然还是那个智障。

原因在于，基于深度学习的自然语言理解，仅能提取概念实体，并不能进行逻辑推理，无法理解用户意图。

在Mingke看来，深度学习仅能处理明文信息，不能处理场景、声音、视觉等世界模型信息。在这种情况下，智能助理产品的出路是什么？

以下是图灵君对Mingke精彩观点和建议的介绍。

别的人工智能那么厉害，为什么你的Siri还是那么蠢？

▲ Sophia in AI for Good Global Summit 2017.

Source: ITU

2017 年 10 月，上图这个叫 Sophia 的机器人，被沙特阿拉伯授予正式公民身份。

Sophia 经常参加各种会、「发表演讲」、「接受采访」，比如去联合国对话，表现出来非常类似人类的言谈；去和 Will Smith 拍 MV；接受 Good morning Britain 之类的主流媒体的采访；甚至公司创始人参加 Jim Fallon 的访谈时一本正经的说 Sophia 是「basically alive」。

要知道，西方的吃瓜群众都是看着《终结者》长大的，前段时间还看了《西部世界》。在他们的世界模型里，「机器智能会觉醒」这个设定是迟早都会发生的。

普通大众开始吓得瑟瑟发抖。不仅开始担心自己的工作是不是会被替代，还有很多人开始担心 AI 会不会统治人类。「未来已来」，很多人都以为真正的人工智能已经近在咫尺了。

只是，好像总感觉有哪里不对：「等等，人工智能都要威胁人类了，为啥我的 Siri 还那么蠢？」

「不要日本菜」测试

早在 2016 年底，Mingke就做过一个测试，对几个智能助理提一个看似简单的需求：「推荐餐厅，不要日本菜」。

各家的智能助理都给出了一堆餐厅推荐，结果，全是日本菜。

2 年过去了，智能助理在这个问题的处理上有进展么？再做一次测试。

结果是依然没有解决。「不要」两个字被所有智能助理一致忽略了，推荐的仍然全是日本菜。

▲ Source: Dumb And Dumber: Comparing Alexa, Siri, Cortana And The Google Assistant, Forbes, May 2018

皇帝的新衣

回过头来，我们再来看看那位沙特阿拉伯的公民，Sophia。你发现问题了吗：苹果、谷歌和亚马逊投入了无数金钱和科学家打造的智能助理蠢成这样，凭什么这个 Sophia 能一鸣惊人？

答案是， Sophia 的「智能」是个骗局。

可以直接引用 Facebook人工智能团队首席AI科学家Yann LeCun 对此的评价，「这完全是鬼扯」。

简单说，Sophia就是一个带喇叭的木偶——在各种大会上的发言和接受采访的内容其实都是人工撰写的，然后用语音合成做输出。然而，这些却被宣传成是Sophia「人工智能」的自主意识言论。

考虑到大部分吃瓜群众是通过媒体渠道来了解当前技术发展的，跟着炒作的媒体都是这场骗局的共犯，比如被点名的 Tech Insider。这些不知道是无知还是无良的文科生，真的没有做好新闻工作者份内的调查工作。

当前对话系统的本质：填表

对话智能的交互（CUI, Conversational UI）是个黑箱：终端用户能感知到自己说出的话（输入）和机器人的回答（输出）——但是感觉不到处理的过程。就好像跟人说话，你并不知道他是怎么想的。

虽说每家的黑箱里面都不同，但是最底层的思路，都万变不离其宗，核心就是两点：听人话（识别）+ 讲人话（对话管理）。

「 AI如何听懂人话？」

我们来看一个例子。

在生活中，如果想要订机票，人们会有很多种自然的表达：

「订机票」；

「有去上海的航班么？」；

「看看航班，下周二出发去纽约的」；

「要出差，帮我查下机票」；

等等等等

可以说，「自然的表达」有无穷多的组合（自然语言）都在代表「订机票」这个意图。而听到这些表达的人，可以准确理解这些表达指的是「订机票」这件事。

在过去，要理解这么多种不同的表达，对机器是个很大的挑战。

自然语言理解这个技能出现后，可以让机器从各种自然语言的表达中区分出来，哪些话归属于这个意图。比如经过训练后，机器能够识别「帮我推荐一家附近的餐厅」，就不属于「订机票」这个意图的表达。

并且，通过训练，机器还能够在句子当中自动提取出来「上海」，这两个字指的是目的地这个概念（即实体）；「下周二」指的是出发时间。

这样一来，看上去「机器就能听懂人话啦！」。

但是任务类的对话智能，往往不止是语音控制这样一轮交互。如果一个用户说，「看看明天的机票」——这表达正常，但无法直接去执行。因为缺少执行的必要信息：1）从哪里出发？和 2）去哪里？

这就涉及到了对话语言的生成。

「 AI 如何讲人话？」

决定「该说什么话」，才是对话系统的核心——无论是硅基的还是碳基的智能。但是深度学习在这个版块并没有起到什么作用。

在当前，处理「该说什么」这个问题，主流的做法是由所谓「对话管理」系统决定的。

目前所有任务类对话系统，无论是前段时间的 Google duplex，还是智能客服或者智能助理，最核心的对话管理方法，有且仅有一个：「填槽」，即 Slot filling。

那么这个「填槽」究竟是个什么鬼？嗯，不搞开发的大家可以简单的把它理解为「填表」：好比你要去银行办个业务，先要填一张表。

如果这张表上的空没有填完，柜台小姐姐就不给你办。她会红笔给你圈出来：「必须要填的空是这些，别的你都可以不管。」你全部填好了，再递给小姐姐，她就去给你办理业务了。

还记得刚刚那个机票的例子么？用户说「看看明天的机票」，要想执行「查机票」，就得做以下的步奏，还要按顺序来：

2018年5月，Google I/O 发布了 Duplex 的录音 Demo，场景是 Google Assistant 代替用户打电话去订餐厅，和店员沟通，帮助用户预定位子。

那 Google 的智能助理（后称 IPA）又怎么知道用户的具体需求呢？跑不掉的是，用户还得给 Google Assistant 填一张表，用对话来交代自己的具体需求，比如下面这样：

▲图中左边是一个使用 Google Assistant 订餐厅的真实案例，来自 The Verge。

「当前对话系统的局限」

还记得之前提到的「不要日本菜」测试么？

当前基于深度学习的 NLU 在「实体提取」这个技术上，就只能提取「实体」。

而人能够理解，用户这个表述指的是「排除掉日本菜以外的其他选择」。这是因为人除了做「实体提取」以外，还根据所处语境做了一个对逻辑的识别：「xx 以外」。然后，自动执行了这个逻辑的处理，即经过推理去进一步理解，对方真正指的是什么（即指代）。

人类这个逻辑推理的过程，并不依赖于某个之前设计好的步骤（从 1 到 5）。

更麻烦的是，逻辑的出现，不仅仅影响「实体」，还影响「意图」：

「hi Siri，别推荐餐厅」——它还是会给你推荐餐厅；

「hi Siri，除了推荐餐厅，你还能推荐什么？」——它还是会给你推荐餐厅。

中文英文都是一样的；Google assistant 也是一样的。

想要处理这个问题，不仅要识别出「逻辑」，还要正确判断出这个逻辑是套用在哪个实体，或者是不是直接套用在某一个意图上。这个判断如何做？用什么做？都不在当前 SLU 能处理的范围内。

理解人类对话的本质：思维

我们首先要了解需要解决的问题，才可能开展解决问题的工作。在对话领域，我们需要知道人们对话的本质是什么。

举个例子：你是一位 30 岁出头的职场人士，每天上午 9 点半都要经过办公楼的旋转门，进到大堂然后刷工牌进电梯，去到 28 楼你的办公室。今天是 1 月 6 日，平淡无奇的一天。你刚进电梯，电梯里只有你一个人，正要关门的时候，有一个人匆忙挤进来。

如果匆忙进电梯来的是你的项目老板，而且假设他和你（多半都是他啦）都很关注最近的新项目进展，那么你们要开展的对话就很多了。

在电梯里，你跟他打招呼：「张总，早！」，他会回你「早啊，对了昨天那个…」

不待他问完，优秀如你就能猜到大概后面要聊的内容是关于新项目。甚至，你可以通过昨天他不在办公室，大概漏掉了这个项目的哪些部分，来推理你这个时候应该回复他关于这个项目的具体哪方面的问题。

「昨天你不在，别担心，客户那边都处理好了。打款的事情也沟通好了，30 天之内搞定。」你看，不待张总问完，你就能很棒地回答上。这多亏了你对他的模型的判断是正确的。

一旦你对对方的情景模型判断失误，那么可能完全「没打中点上」。

「我知道，昨天晚上我回了趟公司，小李跟我说过了。我是要说昨天晚上我回到办公室的时候，你怎么没在加班呀？小王，你这样下去可不行啊……」

所以，人们在进行对话的过程中，并不是仅靠对方上一句话说了什么（对话中明文所包含的信息）就来决定回复什么。这和当前的对话系统的回复机制非常不同。

基于世界模型的推理

对世界的感知，包括声音、视觉、嗅觉、触觉等感官反馈，有助于人们对世界建立起一个物理上的认识。对常识的理解，包括各种现象和规律的感知，在帮助人们生成一个更完整的模型：世界模型。

每个人的世界模型都不完全一样，有可能是观察到的信息不同，也有可能是推理能力不一样。世界模型影响的是人的思维本身，继而影响思维在低维的投影：对话。

让我们从一个例子开始：假设现在咱们一起来做一个不那么智障的助理。我们希望这个助理能够推荐餐厅酒吧什么的，来应付下面这样的需求：

当用户说：「我想喝点东西」的时候，系统该怎么回答这句话？我相信大家都了解，我们可以把它训练成为一个意图「找喝东西的店」，然后把周围的店检索出来，然后回复这句话给他：「在你附近找到这些选择」。

恭喜，咱们已经达到 Siri 的水平啦！

但我们要做的是不那么智障的智能助理。这个「喝东西的店」是奶茶点还是咖啡店？还是全部都给他？

嗯，这就涉及到了推理。我们来手动模拟一个。假设我们有用户的 Profile 数据，

假设我们有用户的 Profile 数据可用：如果他的偏好中最爱的饮品是咖啡，就给他推荐咖啡店。

这样一来，我们就可以更「个性化」的给他回复了：「在你附近找到这些咖啡店」。

这个时候，咱们的 AI 已经达到了不少「智能系统」最喜欢鼓吹的个性化概念——「千人千面」啦！

然后我们来看这个概念有多蠢。

一个人喜欢喝咖啡，那么他一辈子的任意时候就都要喝咖啡么？

人是怎么处理这个问题的呢？如果用户是在下午 1 点这么问，推荐咖啡店就还好；如果是在晚上 11 点呢？我们还要给他推荐咖啡店么？是不是应该给他推荐一家酒吧？又或者，如果今天是他的生日，那么我们是不是该给他点不同的东西？或者今天是圣诞节，该不该给他推荐热巧克力？

你看，时间是一个维度，在这个维度上的不同值都在影响给用户回复什么不同的话。

时间和用户的 Profile 不同的是：

1. 时间这个维度上的值有无限多；

2. 每个刻度还都不一样。比如虽然生日是同一个日期，但是过的是几岁的生日却不同。

除了时间维度以外，还有空间维度。

于是我们把空间这个维度叠加到时间上去。你会发现，如果用户在周末的家里问这个问题（可能想叫奶茶外卖到家？），和他在上班时间的办公室里问这个问题（可能想出去走走换换思路），咱们给他的回复也应该不同。

光是时空这两个维度，就有无穷多的组合，何况时间和空间，只是世界模型当中最显而易见的两个维度。还有更多的，更抽象的维度存在，并且直接影响与用户的对话。比如，人物之间的关系；人物的经历；天气的变化；人和地理位置的关系（是经常来出差、是当地土著、是第一次来旅游）等等等等。

深度学习无能为力

至此，影响人们对话的，光是信息（还不含推理）至少就有这三部分：明文（含上下文）+ 场景模型（Context）+ 世界模型。

普通人可以毫不费力地完成这项工作，但深度学习只能处理基于明文的信息。对于场景模型和世界模型的感知、生成以及基于模型的推理，深度学习统统无能为力。

这就是为什么现在炙手可热的深度学习无法实现真正的智能（AGI）的本质原因：不能进行因果推理。

「单靠深度学习搞不定语言，现在不行，将来也不行」

在人工智能行业里，你经常会听到有人这么说，「尽管当前技术还实现不了理想中的人工智能，但技术是会不断演进的，随着数据积累的越来越多，终将会实现让人满意的人工智能。」

如果这个说法是指寄希望于仅靠深度学习不断积累数据量，就能翻盘——那就大错特错了。

无论你怎么优化「马车」的核心技术，比如使用更壮、更多的马，都无法以此造出汽车(下图右)。

解释人工智障产品

以上，我们了解到人们对话的本质是思维的交换，而远不只是明文上的识别和基于识别的回复。当前的人工智能产品完全无法实现这个效果。当用户带着人类的世界模型和推理能力来跟机器用自然语言交互时，就很容易发现破绽。

Sophia 是一个技术上的骗局（凡是鼓吹 Sophia 是真 AI 的，要么是不懂，要么是忽悠）；

现在的 AI，都没有真正的智能（不存在推理能力，包括 Alpha go 在内）；

只要深度学习还是主流，就不用担心 AI 统治人类；

对话产品用起来感觉智障，都是因为想跳过思维，直接模拟对话（而现在也只能这样）；

「用的越多，数据越多，智能会越强，产品就会越好，使用就会越多」——对于任务类对话产品，这是一个看上去很酷实际上不靠谱的观点；

一个智能助理，能对话多少轮，毫无意义；

先有智能，后有语言：要实现真正意义上的自然语言对话，至少要实现基于常识和世界模型的推理能力。而这一点如果能够实现，人类可能真的需要开始担心人工智能了。

不要用NLP评价一个对话智能产品：年底了，有些媒体开始出各种 AI 公司榜单，其中有不少把做对话的公司归在 NLP 下面。这就好比用触摸屏来衡量一款智能手机。在这儿我不是说触摸屏或者 NLP 不重要 (Essential)，反而因为太重要了，这个环节成为了每一家的标配，以至于在这方面基本已经做到头了，差异不过 1%。

对于一个对话类产品而言，NLU 尽管重要，但只应占个整体配件的 5-10% 左右。更进一步来说，甚至意图识别和实体提取的部分，产品间的差异也远小于对话管理部分的差距。真正决定产品的是剩下的90%的系统。

至此，是不是有一种绝望的感觉？这些问题学界和行业大牛都没有解决方案，或者说连有把握的解决思路都没有。

那么，是不是做对话智能这类产品的上限就是这样了？

不是。对于一项技术而言，可能确实触及上限了；但是对于应用和产品设计而言，并不是由一个技术决定的，而是很多技术的结合，这里还有很大的空间。

作为产品经理，我们应该怎么做呢？

必须承认的事实是，人工智能创业团队最基础的认知计算能力区别不会太大，毕竟大家都是基于大牛们发表的最新论文。这意味着对话式人工智能公司单纯比拼深度学习技术没有太多意义。

市面上以深度学习为基础的对话类产品，语义理解应该只占整个产品的5%—10%。如果混合使用其它技术工具，比如DL+GOFAI（Deep learning+Good old fashion AI），势必会增加开发团队和设计的发挥空间。

GOFAI是John Haugeland 首先提出的，是在深度学习火起来之前的symbolic AI，也就是专家系统。目前AI领域从业者看不上的“if then”讲的就是这个。

确定产品边界很重要

具体到产品设计，对话式人工智能产品的设计原则可以归纳为存在即被感知。换句话说，产品设计应该围绕如何让用户感觉和自己对话的AI是有价值的。

对于眼下的弱人工智能产品来说，产品设计首先要设定好产品的边界，以及定好“越界时给用户的反馈”。而后产品经理就可以在设定的范围内发挥想象力，组装出产品。

比如制作一个树洞机器人，可以把产品定义为一个好的听众，让用户把心中的压力烦恼倾诉出来。

可以看出这个产品的边界非常明确，主要是系统通过一些语言的反馈，鼓励用户继续说，而不是鼓励用户期望对话系统输出很多正确且有价值的话。例如下文中的对话：

“我从来没有这么考虑过这个问题，你为什么会这么想呢？”

“关于这个人，你还有哪些了解？”

“你觉得他为什么会这样？”

这样产品就大幅减轻了对自然语言生成的依赖，同时降低了对话背后的“场景模型”、“世界模型”，以及“常识推理”这些高纬度的模块需求。鉴于目前的技术水平，对话式人工智能产品的边界，应该远离严重依赖世界模型和常识推理才能进行对话的场景。

智能交互的核心是内容，并非交互

对用户来说，使用对话式人工智能产品的核心诉求是获取所需信息，解决相关问题。

而眼下很多人工智能公司号称产品能进行多轮对话，以彰显智能程度。实际上，在达到目的且不影响体验的前提下，对话轮数越少越好。本质上，对话只是用户获取产品背后内容的交互方式而已。

那对话智能产品如何体现获取“内容”或者“解决问题的能力”呢？

回顾工业革命带来的革命性变化，其特征之一就是取代了重复体力、重复脑力的工作，比如农民、文员类工作大量消失。

从这个角度来说，智能对话类产品首先替代的就是典型意义的智能客服团队。假设智能客服跟前台小姐姐的职能差不多。一般而言，前台小姐姐的主要工作和专业技能并没有关系。她们最重要的技能就是对话，准确点说是用对话来了解用户需求，把不合适的需求过滤掉，再把需求转给专家去解决。

想象一下大量被外包的企业呼叫中心就知道客服的存在有多薄弱了。

不过对话式人工智能产品并非止步于取代智能客服，它需要更进一步，代替或者辅助某个领域专家。

从这个角度出发，对话智能类产品最核心的价值，是进一步代替用户的重复思考。Work on the mind not the mouth。

事实上，一位合格的人工智能产品经理应该明确AI技术归AI技术，产品归产品，应该带着做产品的目的来使用AI，而不是AIPM来实现AI。

为此AIPM应该具备以下特质：1、懂商业，理解价值；2、懂技术，理解手中的工具（深度学习+GOFAI）；3、懂人，心理和语言。

总的来说，目前对话 AI 的技术还在第一阶段（蓝色旗帜位置），处于探索的早期，称不上高速发展。黑箱的情况，会使得这个周期（第一阶段）可能比移动时代更长。就目前学术界、工业界的进展来看，第二种技术还没有看到影子。

由于深度学习在对话智能中只扮演了一部分角色，因此大家可探索和成长的空间还非常大。但正因为如此，在可预见的将来，技术并非对话类智能产品的壁垒，数据和设计才是。

值得一提的是，上述提及的数据不是指用来训练的数据，而是供给端能完成服务的数据；能够照顾用户整个生命周期的数据；除用户明文以外的数据；影响用户脑中的环境模型、影响对任务执行相关的常识推理数据等。

随着IOT的发展，终端设备厂商与用户直接打交道，最有可能掌握这些数据。联想到近期BAT以及小米、思必驰、旷视科技等企业不断抛出的AIOT战略，可以瞥见互联网公司、创业公司嗅觉之灵敏。

过去几年间，大大小小的公司纷纷押注智能音箱，以期抢占IOT时代的入口。可现状不如人意，用户使用智能音箱最常见的功能还是天气，也没有对智能音箱产生依赖。

随着5G、云计算等技术的发展，任意一个联网设备都可能具备语音交互和传递服务的能力，削弱了超级终端存在的可能性。

倘若真如此，随着更丰富入口终端设备的涌现，可能移动时代以流量为中心的商业模式将不复存在，新的商业模式将诞生。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：长夏江村 > 《AI与认知科学》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

长夏江村

关注对话

TA的最新馆藏

首发 | 彼得·多默《手工艺文化》：手工艺的现状与未来
红楼一梦300年，100道题证明你曾读过！
[转] 《道德经》第35章执大象，天下往原文和翻译
汉娜·阿伦特抄袭案始末：思想家欺负史学家的一个典型案例
明明是人，偏要装神，太拧巴了
挖角，办公室设在附近，拼多多盯上了SHEIN || 深度

喜欢该文的人也喜欢更多

热门阅读换一换