3小时200页PPT：百度设计重新赢得尊重

晚来天欲雪2l79 2018-07-19

展开全文

—

火爆的现场

“咱们这AI交互设计论坛有多火？这么跟你说吧，我一个工作人员，出来改下稿子，就再也进不去了。组委会临时在会场外安排了一堆座位，大家看直播呢。”一位百度员工在朋友圈如此描述AI交互设计论坛现场的状况。

7月5日，百度2018 AI开发者大会第二天。我大约在1:30左右到达北京国家会议中心，看到AI交互设计论坛门口已经排起了长长的队伍，有点吃惊。心里寻思着，他们是不是排错了队？于是拉着一个人问，你是参加AI设计论坛的？得到的回答“是”。

我仍然有些狐疑，进到会场里面，看到蜂拥而至的观众已经把左中右三个通道都塞满了。为了不影响后面的人，通道上的观众还整齐划一排成两排，席地而坐。整个3小时的论坛演讲，观众少有低头看手机，都在聚精会神地听。我旁边站了一个小哥哥，一直拿着个本本在认真记录。

当天夜里将近12点，本次论坛背后的推手——百度人工智能交互设计研究院院长、百度用户体验中心总经理关岱松在朋友圈发布动态：“感谢今天排队30分钟、在过道（听演讲）、（在门外）看直播的观众。百度设计第一次整体亮出AI肌肉，希望大家能够不失所望。”

文字相当克制，看不出丝毫内心的波澜。而如果了解一些背景的人应该知道，作为百度设计团队的领军人物，关岱松表面有多平静内心就有多宣泄。

两年前，同样是在国家会议中心，因为一位设计总监在公开演讲场合的不当行为，让外界对百度设计团队充满质疑，百度UE成为业界群嘲的对象。以至于在过去的两年时间，百度设计团队噤若寒蝉，鲜有公开演讲和对外交流。

7月5日，百度AI设计团队第一次整体亮相。年轻的设计师们带来了AI时代的人因工程、DuerOS的人机对话设计、自动驾驶的体验设计、百度大脑AI重构现实世界、机器人的人机交互体验重构等前沿探索和实践。

3小时，200页PPT，7位设计师，前沿、新鲜、干货满满的一场演讲。PPT不炫技，演讲者不浮夸，务实而充满力量。现场观众用热烈的掌声、会意的微笑、认真的倾听，来应和设计师们诚意满满的分享。也就在那时，在经历两年的卧薪尝胆之后，百度设计重新赢得尊重。

百度人工智能交互设计研究院成立仅8个月，在AI领域已经获得了337个外观和发明专利，发布了15篇垂直深入的人因工程报告，建造了包括智能驾驶、智能家居在内的AI人工智能实验室，也推出了多个获得市场好评的产品。

以下是我从数万字的演讲速录中摘录的部分，分享给大家。需要特别说明的是，这些片段是我认为有趣的，但不一定完整还原演讲者的精华和全貌。

—

AI的科技与灵魂

关岱松

在未来的几十年，科技体AI将是人类最重要的伙伴，或者对手。在这一刻到来的时候，我们是不是准备好了？

我们怎么去理解这个世界？我们以什么样的理念去面对AI、去训练AI，去和AI沟通、交流？其实从某种意义上来讲，也就决定了AI未来的世界以什么样的面孔来面对我们。

AI，这个I在大多数人看来是智能，但是在设计师看来，这个i是小写的i，它代表的是独特，是innovate(创新) 、inspiration (灵感)。所以我们说当技术、科技赋予AI以能力的时候，其实设计需要赋予AI以灵魂。

2016年开始，我们开始系统地去看AI，以及AI可能对人类生活产生的影响。我们发现AI整个进化和人类的发展史非常的相似，而在AI前半段，最重要的一个词其实就是“重构”。

首先是工具的重构。比如AI时代，无人驾驶没有方向盘，也许不需要驾驶员，我们没有过多的限制，所以有机会更多地思考和创造什么是最舒适的驾驶姿势。百度在智能驾驶的交互设计领域的探索，就是基于人、车、环境和计算这四点，试图构建新的人、车关系。我们希望能够为未来的旅行提供更舒适的姿势。

第二是对生产力的重构。在AI时代来临前，人的能力上限，人思维能力的上限，人多样性能力的上限，人对于不同领域知识融合的上限，其实也就是我们设计能力的上限。而在AI时代，机器拥有庞大的知识，可以创造无穷性、多样性的组合。我们为百度大脑建立了基于社会学的认知模型，我们为机器人加入了主动式交互的行为，让机器和人能够共同创造，更好的配合。

第三个是对生活的重构。在移动时代以来，手机成为设备里的重要环节，我们被那块小小的屏幕吸引，无法自拔，也无能为力。而在AI时代，建立在自然语言、视觉识别基础上的交互界面，我们可以不再依赖那块小小的屏幕，我们将有更多的时间解放我们的双眼和双手和我们的家人在一起。在这个过程中，我们的DuerOS正在尝试用智能型对话的交互设计，让我们逐步的看清未来生活该有的样子。

最后是心理学的重构，艺术、设计、交互、体验，其实所有感知类学科的尽头都是心理学。AI会以一个新物种的姿态进入到我们的空间，人类往往知道自己的边界在哪里，我们都知道自己十年后大概是什么样子，但是人类到目前未知都不清楚AI的边界在哪里？我们将要习惯和一个比我们聪明上百倍、学习能力好千倍的同伴共同生活、竞赛，这是我们需要逐渐习惯的过程。

所以我们成立了AI交互设计院，基于百度体系的数据，使用脑电、机电和传统研究方法的结合，探索全新的研究方向。我们希望百度AI交互设计院能够成为这个时代最懂得AI、社会学、心理学的探索者和前行者。

对工具的重构，对生产力的重构，对生活的重构和对社会学、心理学的重构，是我们AI时代的必经之路。同时也是我们赋予AI灵魂的最佳时机。在我们和机器、和人的相互学习、相互理解过程中，我们对艺术、人文、人类自身其实也将有更深入的理解和判断。

—

机器人的人机交互体验重构

李士岩

关于机器人与人的交互，它依旧是在一个起步的阶段，目前有三个问题：

一、不够自然的语音交互。回想一下当你在一个商场想跟服务机器人进行交流的时候，你不知道它的名字，所以你如何能唤醒它呢？你甚至有时候需要到它的胸前点一下才能和它说话，这很像你跟一个人说话的时候，你每说一句话就要戳一下他的脸，这种感觉非常怪异。

二、不关注人的情绪。经过我们的实验，我们发现当人类和一个越接近人的物体进行交互的时候，越倾向于输出他的情感。比如，你会和你的siri语音助手说“你好笨”，但是你永远不会跟你的椅子说“你好笨”。人类有6种基本情绪跟27种丰富情感，但是目前机器人不管你这些，无论你是什么样子的，它给你的答案永远是唯一的。

三、不够主动。经过调研，我们发现85%的用户对机器的主动服务有明确的诉求，但是我们如何主动交流？我们需要在什么场景下主动交流？我们依旧不知道。

这三个问题目前是阻碍服务机器人向前发展的重要问题，它使得用户在面对服务机器人的时候显得很尴尬，机器人丧失了它的吸引力。因此，我们必须要重构机器人的人机交互体验。

NIRO是机器人自然情感交互系统，包含三个部分。

一、自然语音交互。机器人的自然语音交互分为两个场景，近场和远场交互。近场我们应用的是传统的语音交互模型，第一个节点依旧是语音唤醒，它用的设备是麦克风阵列。当你跟服务机器人进行交流的时候，你的场景是近场交互，它的距离大概是115厘米左右，我们为近场的机器人语音交互设计了新的交互模式。它的第一个节点是距离检测，利用的是双模摄像头和红外；第二个节点是人脸锁定，利用的是单模摄像头；第三个节点是唇动检测。我们确认当前进入近场的用户在说话，我们才开始收音并开始语音识别，它解决了输入对象和环境嘈杂的问题。通过语音的唤醒唇动的检测，我们真正实现了在嘈杂环境，多人同时跟服务机器人语音交互的场景下，机器人与人的交互。当然，这里面还有非常复杂的交互逻辑。

二、用户的情绪应对模型。在人机交互发展的几十年里，机器的IQ有了长足的进步，它比人类的智商要高。但是机器的EQ依旧处于很低的水平，而当两个产品的IQ差不多的时候，一个EQ更高的产品一定更受欢迎。我们如何打造机器人的EQ？EQ包含两个部分，识别和应对。关于识别，我们通过东方人脸的情感数据进行训练来打造一个新的情绪识别系统。关于情绪的应对，有两个场景，一个场景是附带情绪的输出一个任务；第二个场景是情绪的安抚。

实验室中我们通过情绪的激发，并且实验不同的应对策略观察用户情绪的回归曲线得到结果。举一个例子，对于悲伤的情绪来说，当用户悲伤的输出一个任务“给我放首歌”，这时候机器人语音回复的调性应该跟用户共振，应该先完成任务，再进行情绪的安抚。通过这种方式，我们把机器人永远不关注人的情绪，变成了当你处于不同的情绪跟它进行交流的时候，机器人可以给予个性化、带着情绪情感的体验。通过这种方式，我们真正赋予机器人以情商。

三、机器人的主动交流模型。主动交流的难点在于：在什么场景下进行主动交流？交流到什么程度？以什么形式进行交流？如果过分的主动往往成为干扰；如果一点都不主动，往往不智能。

我们与湖南大学进行合作做了实验，我们发现家庭场景中适合交流的八大场景，办公环境下主动交流场景的八个场景。我们发现主动交流的程度和用户当前任务下的注意力成反向关系，用户当前越专注在任务里你越要不主动。并且每个场景下有他最适合的表达方式，通过这种方式我们可以把机器人由一个被动接受指令的主体转化为可以主动交流的主体。

机器人的自然语言交互模型使得人类真的可以与机器人顺畅的进行自然语言的沟通，人类的情感应对模型使得机器有了情商，机器人的主动交流模型赋予了机器人吸引力，它会主动撩你。

—

自动驾驶的交互设计体验

沈瑞祥

当我们在谈论未来AI时代出行体验时，我们的核心是基于智能的全新驾驶系统。它是由计算、交互、信息这三者系统性整合构成，虽然这里还是用了“驾驶”一词，但是请注意它的主体不再是人。从系统的构成上来讲，我们与生活中已经存在的系统并无差异，最关键的核心是我们对于体验表达的再思考以及尝试。

第一部分，信息的人因化设计。在有人驾驶的场景下，我们的汽车信息系统更多的围绕用户的驾驶行为而构建，比如音乐这样的多媒体服务，或者各种行驶辅助的应用，ACC、碰撞预警以及并线辅助等等。未来的无人驾驶场景下，我们的汽车信息架构将更多的侧重于构建安全、舒适的乘坐体验。在这种设计目标的变化下，我们的系统信息架构也将发生巨大的变化。从用户的乘坐行为切入、基于长期大量的实验研究，我们提出了智能驾驶系统的信息架构模型，它包含可知、可控、可预测三层，通过分析归纳出完整的信息系统架构。

第二部分，系统交互设计中通道的可感化设计与媒介的空间化设计。我们试图从自然的交互关系出发，探索满足用户感官体验的人车交互系统。在我们的系统输入端，我们构建了触控语音的系统交互方式；同时在我们的输出端，我们试图满足除味觉以外所有的感官交互通道需求。得益于AR、语音、环境交互以及智能屏显等核心技术的支撑，这种可感化的设计才能成为现实。

伴随着通道的建立，承载信息的交互媒介也从原有单一的机械化操作演变成分散设备的空间化设计。我们通过AR和智能屏显的技术，在我们的乘坐空间里面以及玻璃的透明媒介上，承载更多的信息可视化和交互内容。同时利用搭载更多传感器的智能环绕大屏，构建出更加立体的交互通道体验。

当我们有了完备的信息架构，同时又构建了人与车之间的触点，如何能够驱动这种系统循环运行呢？计算为我们提供了这种驱动力。通过计算力驱动的赋能，再加上信息与交互的闭环，我们重构了人与车之间的关系。

我们不难发现，在智能驾驶系统之上，伴随着出行场景的连接价值，我们创造出一种四维一体的流动体验。而我们相信所有的这一切，仅仅只是体验革命的开始。在AI的未来，各种场景系统的连接与交织将共同构成AI时代的智能系统集群，体验将再次超越我们已有的想象。

—

Duer OS的人机对话设计

张丽川周子轩

Duer OS设计团队的目标是打造智慧型人机对话交互设计系统。

经过认知科学的研究发现，我们人是多通道的交互方式去表达信息的。通俗一点来讲，就是我和你对话，除了我表达出来的字面意思之外，还有眼神、表情、语音语调相配合，这样才能传达给你100%的信息。但是人和设备的多通道交互却不是这么容易实现。

我们发现多通道的交互，在设备当中其实和操作任务有关联。我先举两个例子，就是指派性和互补性。指派性指的就是唯一性，指在某些操作中，只用一个通道，这个通道一定是优势通道，不一定是眼神，或者说是语音，可能只是一个动作。指派性就是最优的解决方案。

互补性，是指多个通道，两个以上的通道。因为我们发现在某些操作任务当中，使用一个通道没有办法完全表达信息的时候，就会使用另外一个通道补充。比如，在视频智能音箱的视频通话场景下，当一方跟另一方说“拜拜”的时候，是用手势语音的方式挂断电话。这个比用语音说，“小度小度，挂断电话。”来得更加自然。

人机交互更高级的是意图推导和情绪感知，就是从感知觉推导人的意图。现在我们正在为智能设备设计这样的一个功能——当我们和一个设备说，“我想听XXX歌”的时候，如果设备感受到我是欢乐的情绪，它就会相应播放欢乐的歌曲；如果发现用户跟唱的时候，设备还会把原音去掉，留下背景音，一键进入K歌模式。

总之，我们的探索最终目的都是实现，以一种最自然的方式和智慧的设备进行交互，智慧的设备提供给我们个性化的服务。对话式人机交互时代已经到来，在这个时代里，我们是一个塑造者，我们正在赋予设备以智慧。

—

百度大脑：AI重构现实世界

赵慧斌

百度大脑，作为百度在人工智能时代重要的核心标志。它的技术以及能力其实已经超过了110多项，其中包含了人脸／人体识别、自然语言处理、知识图谱、AI、VR等等。

这些技术跟能力已经广泛应用到了百度的众多平台和产品当中，其中包含了大家都非常熟悉的百度搜索、百度地图、DuerOS、无人车等等，这些能力和技术还在延伸到交通、制造、医疗等各个领域。

面对如此之大的技术赋能，我们能够去影响的绝对不仅仅是在信息这个层面，我们还可以去影响到人，影响到社会，进而影响到对于现实世界的重构。

百度大脑对现实世界的重构，我们认为有两个重要的因素，一个就是人，另外一个就是环境。

百度大脑对于公共场景设计的影响是巨大的。相信大家都去过机场和火车站，在这样的场景里面让我们印象最深的是什么？一定是排着长长队伍等着过安检。

当我们在解决安检效率提升问题时，首先面临的问题是，在这个场景下的人流量极大，每个用户之间的差异性极大。比如人与人之间的身高、体重的差异，以及文化、语言的差异；还有包括每一个人的认知水平、受教育的水平，还有认知方面的差异；以及当人们走向安检系统的时候，来自于不同的方位、距离、角度等等。

所以我们对整个交互空间进行了整体的布局和设计，我们让摄像头在空间内进行合理的布局，让环境自动适应于人。这样更多地匹配到通行场景，也能够覆盖到更多的用户群体。在之前，我们其实还是需要人去主动配合设备。而现在，所有的这一切其实变得更加的简单且自然。

还有就是我们的环境增强设计，实际上就是解决光线对于人脸识别所造成的影响。再加上我们的前置化设计策略，简单的说就是人走到门禁前，门就可以自动打开。我们都不用等待人脸识别的这个过程，所以可以真正做到无感知的用户体验。

而所有的这些设计带来了什么呢？我们原来在传统闸机下平均每个人通行时间是8秒，我们现在2秒就可以解决，通行效率提升了近400%，带来了更好的通行体验。

我们通过百度大脑和设计去搭建出一系列的新场景，就是希望能够让百度大脑更好的去服务于人。我们认为，在人工智能时代的设计，既能够去增强人的感知能力，同样也能够带来人与环境之间互动的可能。我们还可以去影响并改善周围的环境，进而去影响对于现实世界的重构。

—

AI时代的“人因工程”

李旋

面对AI时代人机交互带来的巨大变化，如何用研究引领设计？我们找到的答案是，人因工程。

什么是人因工程呢？通俗的说，就是我们做设计需要将人知道的、不知道的以做工程的思维精准、量化、全面的进行研究，然后运用到设计之中，这是研究引领设计。

AI时代的人因工程有哪些新的延展？首先，AI技术让机器越来越像人。它可以通过语音、手势、表情等人类最自然的方式来进行交流，它甚至开始被赋予人的外表，人们开始不再需要去适应机器，而是让机器适应人。其次，AI技术让机器越来越懂人。它不仅仅可以读懂我们的肢体语言，还可以读懂我们的情绪、动机，甚至文化。

当机器越来越懂人的时候，人机关系会发生变化。过去人们对于机器是冷冰冰的，未来会将越来越多对人的情感、预期、需求投注到机器人，所以机器带给人的体验更加的复杂。

为了让人和机器都去适应这样的变化，我们认为AI时代的人因工程将不仅仅关乎人的能力、行为、限制和特点，它还将关乎人的社会、文化和心理，是真正以人为中心的系统工程。

在这样的方法论和研究范畴中，我们到底做了些什么呢？

首先，对于人来说，语音对话是最自然、也最高效的交流方式。语音交互无疑是AI时代带来新型交互的开端。整个行业对于如何设计出好的语音交互还有很大的疑问，所以我们以定义语音交互标准作为我们工作的开始。

我们梳理出五个基本的节点，即唤醒、响应、输入、理解和反馈。人和机器对话交流，在每一个节点下面都有很多的设计要点需要去被研究和定义。比如怎么样唤醒机器比较好？比如机器在多久之后给我响应？再比如我们要怎么样去引导用户自然并且有效的进行输入？为此我们系统的去梳理了在每一个节点下的设计要点，并在这样的框架下去逐步开展精细的实验以确定最优的机器参数和反馈水平。

通过实验，我们得到了语音交互的最佳响应时间为650毫秒，这跟网页时代是不同的，并不是越快越好。如果太快的响应，人类会觉得它在抢话。2150毫秒是用户可以忍受的最慢底线。在能够保证语音播报质量和速度的情况下，百科问答的每一条播报长度在15到20秒。

又比如，声学的角度我们去研究什么样的音色是好的？什么样的唤醒词好发音？从语言学的角度去研究机器和人对话的时候，什么样的话术是好的？从视觉认知的角度去研究在不同距离下的字号显示。最终我们得出了一系列的研究结果，并应用到了DuerOS准入准出标准以及设计规范之中，帮助DuerOS和开发者去设计出更加符合用户习惯和需求的语音交互流程。

而在完成了对大部分语音节点的研究之后，我们开始更加深入的思考，如何让人在跟机器的对话中更加让他们觉得AI产品是一个智能体，而不仅仅是一个机器？

围绕这一点，我们认为在不久的将来很重要的三个方面：我们首先研究作为一个智能体外观应该是什么样的？围绕外观可以探讨的问题很多，其中“拟人度”是经常被讨论的问题，也就是智能产品到底应该是否长的像人，以及在多大程度上拟人化，不同的部位是否应该有不同的拟人程度？这是我们对于外观定义很重要的一点。

在探讨了智能产品的外观之后，让交流更加立体是我们的下一个主题。比如，车载环境是一个很典型的场景。视觉和语音的结合，能够尽量的减少车机对用户的视觉资源占用。为了得到这样好的设计，我们让用户佩戴眼动仪去完成驾驶任务，以0.01秒的时间去捕捉用户视点，基于注视点的叠加得到了热力图，热力图可以定量的去记录视觉占用的情况。我们发现语音引导的质量非常重要，好的语音引导能够大大的降低用户对于车机界面不必要的注视。通过这样的方法，我们最终选出了最优的视听配合设计方案。

对于自然交互，我们已经开展了一些研究，而研究这个框架，我们可以去探讨更多的感知觉通道来完善自然交互的设计。大家可以想像一下，如果机器真的可以拥有人类全部的感知觉通道，它真的还仅仅是机器吗？它可以做的事情将远远超越工具。

机器在向智能体进化。不管前面说的语音交互，还是自然交互，对于机器来说其实都是感知觉通道的问题，触碰的是人类的感知觉。而继续进化的下一步，我们认为是情感交互。情感交互将是一个极大地飞跃，它让机器可以触碰人的内心，是机器内核的升级。

什么是情感交互？就是让机器具有类似人一样观察、理解和表达情绪的能力。举个例子，当我心情不太好想要听一首歌，一个具有情感交互的机器人应该不仅仅能够听懂让他播歌的指令，应该有能力看得出我不开心。它不再随机的播歌，而帮我挑选一些比较轻快温暖的音乐，甚至说出温暖的话和温暖的表情。

当机器具有情感交互的时候，它将不仅仅听话，它将会懂事。将机器懂事懂你的时候，这是人机关系进一步的深入。