【原】【独家】专访百度AI交互设计院院长关岱松：感知类学科的尽头都是心理学 | 甲子光年

甲子光年 2021-01-08

展开全文

编辑：甲小姐采访、撰文：火柴Q

设计：孙佳栋微信公众号：甲子光年(ID:jazzyear)

我们处在一个“科技质变”的前夜。当变化来临之时，我们是否在心理上准备好了？

这几天，AI领域最诡异的新闻莫过于“Echo怪笑事件”：许多用户报告，在他们完全没有发出指令的情况下，内置Alexa语音助手的亚马逊智能音箱Echo竟然“无故大笑”。有些案例中，Echo甚至违抗用户命令，频繁开灯、关灯或遥控其他智能硬件，吓坏不少用户，这再一次提示着人类对AI的潜在恐惧：机器会不会“成精”？

在小度、Alexa、小冰、小爱同学、若琪等语音助手一一亮相，各玩家争抢语音交互入口时，我们却很少停下来系统性定义：到底什么才算“好”的交互？越快越好？越“像人类”越好？还是越“聪明”越好？

百度AI交互设计院院长关岱松关心的正是人类面对机器时的这类复杂心理问题。

作为全球首个AI交互设计机构，他们“野心不小”——定义人机交互标准，勾勒AI时代的第一张用户体验地图。

「甲子光年」独家专访了关岱松，这是去年11月百度AI交互设计院成立后，关岱松首次对外发声。

有多年商业艺术经验的关岱松，曾任盛大游戏艺术系统高级总监，他穿纯色衬衫，发型清爽，聊天时会提到文艺作品中的隐喻，不像出没在百度科技园的典型人士。我们详细谈论了交互设计在百度AI布局中的角色，百度对AI交互的具体理念，以及研究过程中，碰到了哪些坑，获得了哪些经验。

目前，设计院已发布两份报告，分别探讨了“语音交互中的等待体验”和“智能音箱唤醒词”，其他研究成果也将陆续面世。

百度AI交互设计院发现，智能音箱的反馈时间并非越快越好，而是和唤醒反馈方式有关。比如在只有灯光反馈的情况下，响应速度为200ms时，用户舒适度最高；但如果响应反馈是灯光加上音效，最舒适的时间则在300ms左右。

而对唤醒词的研究则显示，“名字+名字”的叠词式组合方式最受用户欢迎，“品牌+名字”的组合方式最不受喜爱； 大多数人最青睐“小+字”的唤醒词。

从百度整个AI布局来看，百度AI交互设计院是其中一个重要拼图。继2017年1月陆奇赴任百度总裁兼COO后，百度在AI上布局加速，部门整合大刀阔斧，完成了一系列组织架构的重构：

算上2012年成立、目前由张亚勤负责的百度美国研发中心，百度AI相关部门被整合成了更为清晰、明了的结构。

而据关岱松介绍，AI交互设计院将与度秘事业部（DuerOS）、AI技术平台体系（AIG）、智能驾驶事业群组、智能生活事业群组等百度AI业务都有紧密协同。

每一次交互方式的更迭，都意味着新一轮商业版图的重构。纵观世界科技史上每一代占支配地位的产品和设备，它们的共性是都开辟了最前沿的交互方式：鼠标和键盘定义了个人电脑，触屏定义了智能手机。要判断百度是否能在新一轮AI卡位战中获得商业成功，交互设计是一个重要维度。

在关岱松看来，AI时代的交互面临的最大体验不仅仅是技术问题，更是如何满足用户的“心理诉求”和“安全感”的问题。

雕塑系毕业的关岱松说，以前做艺术，以为艺术的尽头是哲学，后来才发现是心理学。他说，其实所有感知学科的尽头都是心理学。拿AI跟农业文明到工业文明再到信息文明的过渡相比，他认为，如何处理好新交互和安全感之间的平衡，是AI时代最最重要的一个课题。“我们不但要理解产品，更要理解自己。”在他眼中，“对的体验”都有一些共同特征：“超预期、超想象、意料之外而又情理之中”。

他告诉「甲子光年」，虽然都叫“交互设计”，但AI时代的交互与过往都不同——在AI时代，交互设计面临的挑战不是优化，而是重构。

以下是「甲子光年」和关岱松的独家对话。

“AI交互，不是对过去的优化，

而是舍弃和重建”

甲子光年：成立AI交互设计院，百度内部的战略考虑是？

关岱松：最开始大家认为人工智能时代主要以技术驱动为主，但过程中我们发现，要打开新时代的大门，光凭技术不够。纵观整个科技发展史，所有新技术领域革新，其实都是由交互体验革新引发的：鼠标、键盘打开了PC时代的大门，触摸打开了移动互联网时代的大门——新产品的时代，都是由新交互打开的。

甲子光年：想法是谁提出的，决策过程如何？

关岱松：最开始是陆奇在（2017年）4月提出了一些交互的问题。当时，我们只知道AI交互和传统的互联网、移动互联网都有本质不同，我们应该更加系统化地去思考AI时代的人机交互。经历了人员调配、初期摸索、组织架构的调拨，我们从9月份开始做第一份报告，就是“智能音箱响应时间”的研究，所以11月正式宣布成立时，交互设计院已经运行几个月了。

甲子光年：AI时代的交互，相比于移动互联网时代的交互，有什么变化？

关岱松：AI时代在交互上的机会和挑战是同一件事，就是对过去的工具的重构，这个过程不再是优化，而是舍弃和重建。

甲子光年：为什么？

关岱松：AI跟之前农业文明到工业文明再到信息文明的过渡都不同。以前人类创造的工具，从古代到现代的更迭有很强的路径依赖。比如古罗马的马屁股宽度决定了运载火箭推进器的宽度。这是因为马屁股的宽度定义了最初道路的宽度，这一直影响到汽车出现后的马路宽度，又传导到火箭推进器要满足的运输条件。还有我们每天开车的姿势：半躺着，手忙脚乱开车，那是模仿马车的驾驶，并非最优解。但AI时代，自然语言处理、无人驾驶技术等是颠覆性的。你看汽车发展这么多年，在驾驶的舒适性上不断改进，但无人驾驶出来之后，不需要你开车了——“优化姿势”这个路径也就不再需要了，没有了。

甲子光年：其实键盘也是这样。现在通用的“QWERTY”布局，是从打字机沿袭的字母排列方式，这个排列并不是最方便，而是由打字机的机械构造导致的。但如果以后我们都用语音交互，你就不需要键盘了。

关岱松：对！以前的很多工具会被扔掉，新工具会出来，新物种会产生。以前是人学习工具怎么使用，现在是工具要学习人的自然交互。我觉得我们这代人非常幸运，有机会去重构最适合人类的工具和生活。

甲子光年：移动互联网时代的交互中，哪些思维定式已经不适应AI？

关岱松：在特征上，移动产品交互体验有“沉浸式、强注意力”的特点；在人才结构上，移动互联网的交互设计人员以“视觉、交互”为主；在理念上，很多人误认为“交互不是产品的关健成功要素”。这些思维定式，会导致开发出的产品还是移动互联网时代的体验。但上一个时代的产品无法打开下一个时代的大门。

甲子光年：目前AI技术还在攻坚，现在是否已经到了交互的价值十分凸显的阶段？

关岱松：这是两个常见误解。第一个误解是，交互是表面的东西，它不是产品成败的关键；第二个误解是，我们要先把基础技术研究好，然后再做产品化或者更表面的东西。但其实用户真正要的是好的产品体验，而非好的技术。而且，很多问题，在技术遇到墙时，是可以通过交互层面来解决的。所以交互的作用，反而在产业发展初期很重要，是产品是否可以打开局面的核心要素。

甲子光年：交互怎么绕过技术遇到的墙，举个例子？

关岱松：比如在人与人的交流中，我们怎么说话能够让对方更舒服，如果完全从技术角度去解决，这是个非常庞大的问题，需要很复杂的模型和计算。但从交互角度看，其实人类的自然语言交流有一些必要属性，比如效率、友好度，而这些属性可以总结出具体特征，特征可以缩小技术模型，这使我们在现有的技术条件下，仍能给用户比较好的交流过程。

甲子光年：技术、产品、体验，三者是什么关系？

关岱松：技术是起点，产品是形态，体验是目的。苹果在做触屏手机前，触屏技术以及很多手机相关的元器件，都成熟很久了，但是乔布斯把它们组合起来，提供一种新的交互方式，就开启了移动互联网的大门。我们做一个产品，不是为了推广一项技术，而是为了提供一个体验更好的产品。

“所有感知类学科的尽头都是心理学”

甲子光年：AI交互设计的难点是？

关岱松：现在对AI交互设计来说，所有地方都是难点，因为很多地方都是未知的。但是随着时间推移，这些都可以解决。最大的挑战，其实是用户心理层面的挑战。以前我做商业艺术，认为艺术的尽头是哲学，后来发现，艺术的尽头是心理学。其实所有感知类学科的尽头都是心理学，我们在AI时代也面临同样的心理学问题。

具体来说，面对变化，人有心理安全感和情感延续的诉求，这都写在人的基因里。过去的工业革命和信息革命让人们的生活行为发生很大变化，但它是相对缓慢的，可是AI会来得非常快，我们现在正在一个“科技质变”的前夜。在这个变化来临之时，我们是否在心理上准备好了？

我看到现在很多AI产品、创业者和企业。他们描述的AI世界像一个呼啸而过的火车，把每个人卷上去，然后说我给你最好的体验。但我觉得不是这样。我觉得真正要打开AI时代的门，它的体验应该是温暖的和尊重的，能照顾到人的安全感和情感诉求。我们不但要理解产品，更要理解自己。如何处理好新交互和安全感之间的平衡，这会是AI时代最最重要的一个课题。

甲子光年：“AI会来得非常快”，具体是多快？这个判断基于什么？

关岱松：技术的进步是加速度的。从工业革命到计算机用了近百年，从PC互联网到移动互联网用了几十年，移动互联网到现在才8年。AI已经在向我们走来，随着数据维度、数据量和算力的几何增加，AI产品的进步速度将可能超过我们想象。交互和体验的进步是否能够跟上技术进步的速度，我不确定。问题到来的时间一定比预想的会快很多。

甲子光年：宣布成立AI交互设计院时，您说AI交互和以往互联网交互最大的不同是互联网思维是沉浸式的，而AI是融合的过程，可以展开说说吗？

关岱松：AI是一种技术，我们一般说技术就是生产力，但AI还不太一样。AI有两部分，第一部分，它是一种生产力，可以增益现有的工业能力；第二， AI本身其实就是一种生产要素，它会独立成为一种工业模式。

甲子光年：AI作为生产要素的含义是？

关岱松：生产要素在过去主要指的是劳动力、土地、资本、信息等，是可以独立创造价值的部分。比如AI可以取代部分人的工作，成为一个独立的劳动力，像百度阿波罗自动驾驶系统，在2018年就会开始和厂商合作落地，百度也与一些机场合作了人脸登机系统。

而另一方面，AI自身会创建新物种。比如，我们现在设计一个智能音箱，最简单的做法是，我们根据自己的经验和喜好，定义皮肤是灰色的，它是方的。但这还是在以人类的理解去塑造它的形体。灰的、方的就一定是对的吗？如果这个行为变成人类输入一个问题：DuerOS你的皮肤应该是什么颜色？DuerOS可以下发几万张不同颜色的皮肤给用户，用户的喜好会反应在行为上，DuerOS可以自己得到最接近正确的答案。

再进一步，接下来AI是否可以不需要人类输入问题，而是自己学习工业史上所有产品的成功要素，然后自己问自己问题，自己寻找答案？到那时，它就能告诉人类“我应该是什么样的，你帮我做出来”，所以我们已经无法预测它的最终形态，AI会创建新物种。

甲子光年：这就是挑战人的心理感受的地方。

关岱松：这个例子其实不稀奇，在百度很多现有产品中，已经是人类输入问题，机器来寻求答案了。比如已存在多年的AB test，就是建立在双盲基础上了解用户的体验反馈。

挑战人类心理的源头还是人性和情感的临界点。2017年有一个波士顿机器人的视频，工作人员用棍子击打一个机器人，很多看视频的人觉得那个片断残酷、粗暴，这是因为观众在情感上把这个机器人和人类挂勾了。事实上那个机器人和一个快递盒一样，都不是人，我们看到快递盒被打时不会感到残酷，在这个时代，我们的情感临界点可能会面临很多挑战。

机器人正在“挨打”

甲子光年：那么，究竟什么样的交互体验才算好的、对的体验？标准是什么？

关岱松：在大家都不会用DOS时，你给他一个鼠标和一个图形界面，这就是对的体验。大家都用手机小屏幕和数字键盘艰难上网时，你给他一个iPhone就是对的体验。我还记得2007年苹果的发布会上，当乔布斯用手指在屏幕上滑动显示滚动通讯录的那一刻，台下惊叹一片。做对体验，市场的大门就打开了。

甲子光年：抽象地概括，什么是对的体验？

关岱松：很难概括，但对的体验都有一些共同特征，它们是“超预期、超想象、意料之外而又情理之中”。

“社会学、心理学、统计学人才

占75%以上”

甲子光年：百度做AI交互研究有什么新的研究方法？

关岱松：我们把AI交互的研究定义为“人因工程”，跟人机交互是很相关的，但它更偏向人的本源需求。和传统交互设计团队十分不同的是，工业设计、视觉设计、交互设计的人在我们团队中目前比例不大，社会学、心理学、统计学的人才大概占75%以上。

甲子光年：跨学科的人才之间怎么协作？

关岱松：这是一个非常核心的问题。我们进入的是一个前人没有到过的地方，过去的工作流程和人才配比都不合适，它的特点是对每一个垂直领域都需要非常深的知识。比如我们的第一份报告，研究和智能音箱对话时最合适的机器响应时间，同时涉及心理学、语言学、社会学调研及相关实验。如何相互理解，综合跨学科的数据，需要很复杂、烧脑的学习过程。大家现在看第一份报告很清楚，数据详实、简明，但其实每一页后面都有非常厚、一沓一沓的数据，那里面都是我们走错了的路和解开的结。

甲子光年：具体走了哪些错路？

关岱松：关于响应时间的第一份报告我们做了3个月。最初的思路是研究自然人之间的对话时长，本以为可以得到一个相对简单的答案，却发现各语言的差异非常大：两个丹麦人交流是很慢的，但两个日本人的交流就非常快，然后中文没有相关文献，我们就开始自己做测试。

但是，人与音箱和人与人的交流又不同，为此我们又开始做人机对话实验，设置了多种响应时间、音箱响应方式……反复实验后，才得出我们现在的报告。

实际上非常细，还包括音箱形状的区别，响应时配合的效果音和灯光等多媒体要素，还有性别差异等。

再比如怎么定义用户体验的“不好”？我们把实验原始数据整个看了一遍，发现有两个不一致的值，一个值是用户自己填写的满意度，另外一个是测试员在玻璃后面观察到的满意度。有的用户会填“可以接受”，但观察员从用户微表情线索判断，这个用户已经很不耐烦了。最终我们基于两个数据交叉判断，当20%的用户填写“不满意”时，实际这个用户体验已经不及格了。

甲子光年：研究问题是怎么形成的？

关岱松：其实大家脑海中都有无数疑问，最开始是解决DuerOS等百度最需要了解的问题。但到后面，我们发现所有的问题背后都是有脉络的，都指向人因工程，特别是人这个核心因素：人怎么交流的？在交流中怎么建立、维系感情？人和场景的氛围关系是怎样的？人如何与场景互动？在今年年中，地图更完整起来的时候，我们会发布这份地图，系统性地解答这些问题。

“知道你在哪儿，世界就像地图那么小，

不知道在哪儿，世界就无比广大。”

甲子光年： AI交互设计院怎么和百度其他部门配合？

关岱松：我们服务整个百度AI。具体做两项工作，第一是与百度AI相关团队一起在实际产品中去摸索和迭代好的人机交互体验。第二，我们想完成一张完整的AI交互体验地图。我们之后每个月都会发报告,计划今年年中会公开整体地图的初步构想，然后根据反馈不断修正和完善，为开发者提供AI时代的基础数据。百度是AI领域的先行者，无论在产品布局、技术，以及交互设计方面，我们都将保持领先。

甲子光年：具体来说，什么是AI交互体验地图，包含哪些要素？

关岱松：我们会以自然语言、传统人机交互学科、心理学、多媒体等几个角度，将AI涉及到的交互领域抽离出来，形成“人格”“反馈”“行为”等几个大的部分，并依次实验和探索，当每个点完成串联后，就可以得到AI交互体验路径中的大部分答案。

受制于当前的视野和能力，我们的第一份地图很可能不够完整和准确。发现世界的过程也是修正地图的过程。就像哥伦布用前人的地图发现了新大陆。AI时代的体验始终是站在前人肩膀上的发展过程，我们愿意做第一个肩膀。

甲子光年：你们已经发布两份报告，“响应时间研究”和“唤醒词”，都是关于语音交互的，今年你们的研究计划是继续聚焦语音，还是有什么新的方向？

关岱松：我们会继续关注基于自然语言的人机对话，还有一些和多媒体硬件相关的体验，这是在现在最重要的事。这次的人机交互变革影响将非常大和快速，我们先要把这个重要的方向做深做透。

甲子光年：就人机交互来说，市面上不仅仅有团队在做AI交互，也有团队在做AR交互，百度会在这方面有什么动作吗？

关岱松：目前没有关于AR的研究计划。我们正在建一个实验室，主要是和自然语言以及自动驾驶交互相关。资源有限的情况下，我们先把一类任务做好，之后再慢慢扩展其他领域。

甲子光年：现在语音、自然语言相关的交互竞争非常激烈，谷歌、亚马逊、百度，包括三星都在做，你们向全行业开放报告，会不会担心减弱优势？

关岱松：人工智能交互设计院的愿景是引领和定义人工智能时代的人机交互体验，DuerOS是目前市场上最具活力和体验最好的开放平台，这两部分工作相辅相成。DuerOS本身也是一个开放平台，它有很多合作伙伴，这些AI交互报告是合作伙伴急需的，我们向合作伙伴开放，其实也就是向全行业开放。对DuerOS和百度AI战略来说，合作伙伴的成功就是我们的成功。

甲子光年：你们成立AI交互设计院、发布报告后，对行业有什么影响？

关岱松：有很多同行都很欣喜，和我有很多交流。很多人看到这个报告后，帮他们找到了新角度。我觉得未来走上我们这条路的同伴会越来越多。百度人工智能交互设计院是行业中第一个这方面的专业组织。百度作为中国AI时代的领导者，把交互设计推动到非常重要位置，也为同行做出了很好的引导和表率。

甲子光年：怎么评价国内做AI产品的创业团队目前对交互设计的重视程度？

关岱松：我们从组织构架、人才类型和产品目标这几点，就能看出一个企业所处的阶段。总体来说，目前很多公司还是继承了移动互联网时代对交互设计的理解，还处在这个阶段。但这个阶段很快会过去。

甲子光年：很多新创团队有不错的技术，但一项相似的技术，可能商业化的结果迥然不同。从交互设计的角度来看，怎么评价商用语音助手之一的Siri沦为鸡肋，但是语音交互却在智能音箱上取得了成功？

关岱松：其实在整个用户体验里，有两条线相互关联、相互作用，共同决定一个产品的初期接受度：一条线是用户预期的稳定性，一条就是心理上的安全感。Siri搭载在手机平台上，用户对它的预期是跟手机挂钩的，而手机又是一个非常丰富、垂类非常多的工具，你很难在每一个垂类上都精耕细作，这就是Siri显得“傻”的原因之一，会让用户体验有很强的不可预期性。但音箱，他主要执行的任务就是那些，可以做得更加深入和细致。用户对他的预期本来就有限，而且都能得到不错的满足，预期稳定性和安全感就好很多。

甲子光年：对做2C产品的AI创业团队来说，该如何发展交互设计的能力？

关岱松：我认为，一是要理解，人的需求才是动力；二是一定要忘记上一个时代的交互设计，虽然名字相同，但它们是截然不同的两件事；三是要把交互设计作为AI产品最重要的一件事去落地和推进。

新产品的初期，最重要的就是“做对体验”。如果一个企业、一个产品先做对了体验，他可能就会先打开新世界的大门。我最近又在重新看《三体》，里面有一句话是：知道你在哪儿，世界就像一张地图那么小，不知道在哪儿，这个世界才广阔。对所有人来说，AI的世界，未知、广阔而美好，所以我们正在摸索如何绘制地图。

END.