AI生活类智能硬件领域调研报告

Tatianama 2018-01-09

展开全文

很多这样的智能硬件设备确实是一点AI的相关技术都没有用到，靠的是传感器显示和人工程序设定。

「智能硬件是通过软硬件结合的方式，对传统设备进行改造，进而让其拥有智能化的功能。智能化之后，硬件具备连接的能力，实现互联网服务的加载，形成云+端的典型架构，具备了大数据等附加价值。」

1.市场

1.1 AI国内外大情况

1.2 AI经历的时期和当前所处的阶段

1.3 AI在哪些生活领域比较火

1.4 有哪些公司做得比较好

1.5 这些公司在AI上是如何布局的

2.商业

2.1商业模式

2.2上下游产业链

3.产品

3.1家居：智能音箱

3.2医疗/可穿戴设备

3.3交通：智能车载

3.4教育：智能机器人

4.设计

4.1人工智能时代带来的挑战

4.2 VUI-一种新的交互方式

4.3 VUI的设计原则和方法

市场

1.1 AI国内外大情况

全球人工智能企业数量集中分布在美国、中国、英国等少数国家，三国企业数量占总数的65.73%；

中国人工智能企业数量主要集中在北京、广东及长三角（上海、江苏、浙江）一带，占中国人工企业总数的84.95%，四川虽然数量不及以上地区，但明显高于其他省市。

美国AI布局全面领先，相比较而言，中国在基础元器件、基础工艺等方面差距较大

政策方面，各国均在政策层面强调和推动人工智能的发展。其中，美国侧重于研发新型脑研究技术；欧盟主攻以超级计算机技术来模拟脑功能；日本则聚焦以动物为模型研究各种脑功能和脑疾病的机理。

国内近几年也出台了相关扶植人工智能发展的政策，积极推动人工智能在各个细分领域的渗透。2016年5月，国家四部委更是颁布《“互联网+”人工智能三年行动实施方案》，明确提出要培育发展人工智能新兴产业、推进重点领域智能产品创新、提升终端产品智能化水平。

中国人工智能产业处于上升阶段

图片摘自：艾瑞咨询-2017年中国人工智能产业专题研究报告

中国人工智能产业规模2016年已突破100亿，以43.3%的增长率达到了100.60亿元，预计2017年增长率将提高至51.2%，产业规模达到152.10亿元，并于2019年增长至344.30亿元。

基础支撑层主要由算法模型（软件）和关键硬件（AI芯片、传感器）两部分构成；

关键技术层主要由感知类技术和其他深度学习应用构成；

应用场景层为集成了一类或多类基础应用技术的，面向应用场景特定需求的产品或方案。

智能硬件主要为应用场景层。

图片摘自：艾瑞咨询-2017年中国人工智能产业专题研究报告

北京是人工智能创业重镇

42.9%的人工智能创业公司位于北京，而上海则拥有16.7%的人工智能创业公司，15.5%位于深圳，而广州的人工智能创业公司占比则为7.7%。在北上广深之外，浙江和江苏分别拥有5.4%和3.6%的人工智能创业公司。

计算机视觉是创业公司最多的领域

中国人工智能创业公司所属领域分布中，计算机视觉领域拥有最多创业公司，高达35家，紧随其后的是服务机器人领域，有33家，而排名第三的是语音及自然语言处理领域，有18家，智能医疗、机器学习、智能驾驶等也是相比比较热门的领域之一。

1.2 AI经历的时期和当前所处的阶段

第三次爆发的根本原因：计算能力，算法突破，数据井喷

直接原因：应用广泛，算法开源，投资活跃，政府支持

我们仍处于专用人工智能阶段

目前的人工智能属于专用人工智能，如计算机视觉、语音识别等，以一个或多个专门的领域和功能为主，目前正处于高速发展阶段，已取得较为丰富的成果；

通用人工智能即机器与人类一样拥有进行所有工作的可能，关键在于自动地认知和拓展。目前正在研究人为地设计尽可能多的功能的弱通用人工智能，但目前研究水平仍远远未达到；

（相比专用人工智能只能理解特定领域知识和实现特定领域应用，通用AI还有知识技能迁移能力、跨领域推理能力、常识的认识与掌握、抽象能力的掌握）

超级人工智能是指具有自我意识，包括独立自主的价值观、世界观等，与技术的发展不同，超级人工智能的基础是人类对生命科学的全面深入的理解，目前仅存在于文化作品中；

1.3 AI在哪些生活领域比较火

1.4 有哪些公司做得比较好

以上图片摘自：乌镇指数：全球人工智能发展报告2016-产业与应用篇

1.5 这些公司在AI上是如何布局的

图片可点击放大查看

◆ 打造人工智能开源平台

AI开源平台是一个深度学习的工具箱，用户可以在其开放的平台上使用其算法系统，获取开源代码。

◆ 布局人工智能芯片

芯片行业虽然已有行业巨头NVIDIA和Intel，且技术壁垒极高，但由于行业目前AI运算仍以GPU为主，并未出现大规模应用的人工智能定制类芯片，Google、IBM、乃至国内的中科院都在积极布局探索。

◆ 布局人工智能核心技术

巨头们自身成立人工智能研究院招募人才的同时，也在积极参股、并购拥有先进技术的AI公司。

商业

2.1 商业模式

在人工智能平台化的趋势下，未来人工智能将呈现若干主导平台加广泛场景应用的竞争格局，生态构建者将成为其中最重要的一类模式。

❶ 主导平台+广泛场景应用

◆ 模式一：生态构建者——全产业链生态+场景应用作为突破口。

关键成功因素：大量计算能力投入，积累海量优质多维数据，建立算法平台、通用技术平台和应用平台，以场景应用为入口，积累用户。

◆ 模式二：技术算法驱动者——技术层+场景应用作为突破口。

关键成功因素：深耕算法和通用技术，建立技术优势，同时以场景应用为入口，积累用户。

◆ 模式三：应用聚焦者——场景应用。

关键成功因素：掌握细分市场数据，选择合适的场景构建应用，建立大量多维度的场景应用，抓住用户；同时，与互联网公司合作，有效结合传统商业模式和人工智能。

在人工智能平台化的趋势下，未来人工智能将呈现若干主导平台加广泛场景应用的竞争格局，生态构建者将成为其中最重要的一类模式。

◆ 模式四：垂直领域先行者——杀手级应用+逐渐构建垂直领域生态。

关键成功因素：在应用较广泛且有海量数据的场景能率先推出杀手级应用，从而积累用户，成为该垂直行业的主导者；通过积累海量数据，逐步向应用平台、通用技术、基础算法拓展。

◆ 模式五：基础设施提供者——从基础设施切入，并向产业链下游拓展。

关键成功因素：开发具有智能计算能力的新型芯片，如图像、语音识别芯片等、拓展芯片的应用场景；在移动智能设备、大型服务器、无人机（车），机器人等设备、设施上广泛集成运用，提供更加高效、低成本的运算能力、服务，与相关行业进行深度整合。

❷ 人工智能咨询与定制

根据企业/客户需求进行定制化的人工智能解决方案。这个商业模型不要求高精尖技术或是在某个领域的突破，主要是为了解决AI通用平台无法完成客户定制的需求的问题。

2.2 上下游产业链

工业机器人

服务机器人

AI+安防

AI+家居

产品

AI生活类智能硬件领域产品浅析

嵌入式应用+终端产品开发

3.1 家居智能音箱

❶ 行业现状

亚马逊Echo是智能音箱鼻祖产品，家族产品线引领智能音箱行业的发展。亚马逊整合电商、硬件、平台、内容等资源，形成完善的生态局。

京东与科大讯飞推的叮咚音箱，率先抢占国内智能音箱市场。京东整合电商、硬件、内容资源、智能平台、音频联盟，布局智能生态圈，拓展本地化产品定位，构建多场景多终端的无界零售。

苹果具有优质软硬件结合的基因，Homepod将与IOS融合实现更多功能。

阿里打通内容资源、电商资源、O2O资源，发展消费级AI产品。

❷ 销售方式

目前智能音箱的销售渠道主要集中在线上，场景营销是智能音箱开辟线下渠道的机会，但场景销售成本高，目前智能音箱产品规模难以支付。小米之家等新零售渠道有望打开线下渠道出口。

❸ 商业模式

现有模式：基础设施提供者——从基础设施切入，并向产业链下游拓展

1．招商模式：招募经销商。

2．B to C，应用了现时最流行的互联网，成本相对比较低，适合初创型公司。

3．与厂商合作的模式。

4．爆款模式，就是把一款产品做到极致。

流量变现 + 情景消费 + 系统解决方案

未来趋势：全产业链生态+场景应用

❹ 实际案例

智能音箱具备语音交互，可提供内容、互联网服务，控制场景化智能家居。但目前智能家居普及率低是导致目前智能音箱家居控制中心功能无法循环发展的主要原因，而不注重消费者体验的反馈是智能音箱解决不了消费者痛点的主要原因。

语音交互是打通智能家居的关键点，而智能音箱可能只是其表现形态的一种，国内外厂商也正在积极的探索新的智能家居入口形态。目前中国市场中组合形态的产品较为主流，例如将智能音箱与平板、可穿戴产品相结合。

屏幕让信息呈现更丰富更快捷，音箱屏幕化是发展必然趋势，毋庸置疑。

3.2 医疗智能可穿戴设备

❶ 行业现状

可穿戴医疗设备前景广阔，很可能是一项在根本上改变人类医疗健康的新技术。一方面，我国人口老龄化造成医疗需求的急剧增长；另一方面，我国医疗资源供给严重短缺，尤其在偏远地区。

目前市场上主要的可穿戴医疗设备形态各异，主要包括：智能眼镜、智能手表、智能腕带、智能跑鞋、智能戒指、智能臂环、智能腰带、智能头盔、智能纽扣等。可穿戴医疗设备是一个高速发展的市场，它的兴起也催生出更大的移动医疗市场。

智能可穿戴设备通过大数据、云计算、物联网等技术应用，实时采集大量用户健康数据信息和行为习惯，已然成为未来智慧医疗获取信息的重要入口。

优势：

1.实时监测

2.降低治疗成本

3.医疗大数据

4.智能医疗前景

挑战：

1.可操作的大数据

2.共存与互联

3.不一致与多样性

4.安全与隐患

“三大弱小”痛点

“浅体验、弱价值、小范围应用”

痛点：从整体可穿戴设备的发展来看，大量的可穿戴设备功能比较单一、作用比较简单，大部分是器械设备厂商推出的产品，医学科研机构、医院医生的参与度还比较低，能真正用于医学临床的还比较少，其“浅体验、弱价值、小范围应用”痛点比较明显。

切入点：聚焦突破单病种、单人群、单地域，抢占主社群流量入口及检测入口，快速切入移动医疗生态

战略点：推进云端建设，推进数据汇集、信息共享和云端对接

连接点：连接医生专家，提供专业医学支撑和技术服务，建设专业化医学服务团队

亮化点：持续监测身体变化，提升诊断精确度，亮化远程诊断价值

深入点：深入推进医学类互动体验，力求专业、易用、好反馈

盈利点：创新盈利模式，将设备以硬件成本价销售，服务为先;方案主导，服务变现

❷ 商业模式

现状：通过销售可穿戴设备智能硬件获利，这一相对传统的盈利模式设计使其发展非常缓慢。

机会：提供更多的增值服务，依靠服务方案赚钱而非靠硬件销售盈利。

趋势：医院、数据、设备三者的结合，才能完全体现出大数据与可穿戴的优势。而可穿戴设备需要解决的续航、数据处理、采集、传送和给对这些数据进行分析计算机的能力是整个行业发展的关键。

如借鉴“小米”的商业模式，将现有的医学级可穿戴设备进行低价或成本价销售，以此扩大医学级可穿戴设备的用户使用率，提升设备的整体市场影响力，同时强化医生的专业化后续服务，为患者制订定制化的医疗服务方案，依靠服务方案赚钱而非靠硬件销售盈利。

从现在所有的数据以及现状分析，做基于健康类智能硬件以及服务是未来一个很明朗的大趋势。只要一种生命体征监测做的非常准确，服务深得人心，有了一定的用户积累之后，就可以很方便地去做健康类垂直领域，其他类的监测也是一样。

垂直领域先行者——杀手级应用+逐渐构建垂直领域生态

结合可穿戴医疗设备发展现状，值得摸索的商业模式包括：

（一）设备销售--向用户收费

让用户产生依赖感，产生不同于智能手机的全新用户体验；在可穿戴设备的设计上，注重美观和时尚，使可穿戴设备时尚界追逐的热点；用白金/翡翠等制造或点缀可穿戴医疗设备，将其打造成奢侈品，从而以较高的价格向用户出售。

（二）软件销售--向用户收费

可穿戴和医疗设备厂商可以建立类似iTunes的健康软件平台，销售基于监测数据的健康指导/游戏软件，获得销售提成。

（三）个性化服务--向用户收费

可以为用户提供个性化的远程服务，根据可穿戴医疗设备收集的数据，由三甲医院的医生通过视频为农村的脑瘫儿童提供康复指导；由健身教练通过视频向减肥者传授量身打造的健身操。

（四）精准广告投放--向企业收费

通过对用户监测的云端“大数据”的分析，向用户提出有针对性的改善建议，为相关厂商进行精准的广告投放。

可穿戴医疗设备虽然技术层面已经有所突破，但大多数产品仍处于实验期或推广初期，且价格偏高，商业模式仍处于探索阶段，寻找可以产生增值效益的商业模式对可穿戴医疗设备厂商成为行业龙头尤为重要。

（五）研发服务--向科研机构收费

可穿戴设备厂商可充分利用云端“大数据”，为药企、医疗器械公司、研发外包公司、高校研究机构等提供研发服务。

（六）帮助医院建立数据中心--向医院收费

可穿戴医疗设备厂商可以帮助医院建立数据监测中心，为医院提供患者远程监控服务、预约服务及自动分诊服务，按照联网会员的数量向医院收取服务费。

（七）医生再教育--向医生收费

中投顾问在《2016-2020年中国可穿戴医疗设备市场深度调研及投资前景预测报告》中指出，个体化监测积累的大数据可以通过分析和归纳成为医生再教育的一部分，医生未来的知识不仅来源于书本，更来自大数据分析后得到的应用性极强知识。医生可以自主从大数据库中发现问题并寻找对策，这将成为医生获取知识的重要途径。

（八）与保险公司合作--利润分成

可穿戴医疗设备厂商可以通过和保险公司合作获得广大的客户群（利润分成）。保险公司一方面可减少长期保费开支，另一方面可采集医疗大数据开发个性化的产品。

一家美国创业公司发明了智能袜子，这款智能袜子能够将数据实时传输到手机里，通过长期动态数据分析得到是否发生病变，如果发生病变会第一时间提醒。因为有些糖尿病患者会产生一定程度的脚步肿胀，如果不及时发现和治疗可能会引发感染或者截肢，这款智能袜子起到了实时监测的作用。

3.3 交通：智能车载

❶ 行业现状

调查表明，中国目前有42%的车主装配有车载智能系统。在装配有车载智能系统的车主中，中国车主对相关功能的使用频率远高于欧美车主。

中国车主对各功能的使用除了传统的倒车影像、蓝牙免提等功能外，车主对大触屏、联网功能的需求正在增强。网络浏览资讯、在线地图导航、在线音乐等的使用频率都比较高。

就目前的现状而言，智能汽车大多是针对汽车与用户本身通过各种移动终端进行交互设计，更多的是人车交互。

❷ 未来趋势

未来的车联网，本质是以汽车为节点的信息系统，通过汽车收集、处理和共享大量信息，实现车与路、车与车、车与人、车与城市网络的互相连接。车联网是未来的发展方向，然而车联网的实现终归是以智能终端的发展为载体。

分析人士认为，一方面，未来车联网以语音输入与车载终端互动的方式依然是车载终端发展的潮流；另一方面，导航技术将更加直观易用，传统的静态导航将逐渐被动态导航所取代，3D导航、实景导航和在线化方式都将成为未来发展方向。

对于汽车后市场厂商来说，立足于车载智能终端的开发与应用，通过对车辆和用户信息的动态管理，把握先机，才能在大数据时代成功淘金。后市场企业正在积极的进行布局，在人机交互、功能融合、系统订制、车机手机互联等方面都取得了不错的进展，随着技术的逐渐成熟和厂商的不懈努力，届时的车载终端市场将会迎来另一波发展高潮。

车载媒介大多是以声音为主的传播媒介。未来移动音频将会成为更多用户的车载媒介选择。

车载硬件的基本普及使得泛用型手机投屏服务迎来爆发。苹果的Carplay与百度的Carlife是目前主要的手机投屏服务商。

随着语音助理智能程度的提升，与汽车操作相关功能的开发，车载语音输入操作的交互方式进一步发展。

新车品时代：线上消费升级。电商渗透率增长迅速。汽车后市场的“线上化”较同年一季度末的渗透率上千了32.64%，增长迅速。

男性消费者主导汽车后市场“80男”是主力，90后在追赶。网购车主两端化，集中在“大城” 或“小镇”。

❸ 车载产业链

❹ 商业模式

技术算法驱动者——技术层+场景应用

IT和电子消费品厂商将更加完善人机互动技术（HMI），这将提升消费者对汽车内HMI的预期。

未来是车载信息平台是人、车、环境的充分交互，集电子、通信、网络、嵌入式等技术为一体的高端车载信息综合显示平台。车联网向纵深方向发展，硬件基础功能免费，基于用户数据的挖掘和增值服务将成为未来主要赢利点。Analysys易观分析认为，语音交互在车载场景中存在刚需，也会成为最先爆发的领域。而车联网的纵深化发展，将会衍生出硬件免费，靠个性化增值服务盈利的商业模式。

汽车厂商将沿数字化的价值链上下游进一步延伸不断创新商业模式和业务类型。

车联网数据 + 车主特征数据，拓宽汽车后市场服务，实现精准营销

寻求突破点进行用户数据和行车轨迹的挖掘和变现

❺ 实际案例

3.4 教育：智能机器人

❶ 行业现状

教育机器人一方面面向学校机构，希望成为教学辅助工具；一方面则面向家庭，希望在陪护和教育之余切入更多的服务空间。

而教育却因为本身的专业性、系统性及教育机构的垄断性更难立即打通。教育机器人的消费者与用户是割裂的，为了提高认知度，不少教育机器人开始做教育内容与课程的研发，以此进一步匹配教育机构的场景，提高教育机器人的教育属性；而教育陪护类机器人也逐渐走进学校，提升教育能力。

教育机器人产业大致可分为如下三种形式：

首先，是以能力风暴为代表的，我国自主研发的优质教育机器人品牌。这类品牌以国际先进的教育理念为指导，以智能机器人为课程载体，全面培养孩子成功能力（分析能力、创造能力和实践能力的平衡）。它还充分考虑了中国青少年成长特点和我国教育特性，开发出完善的、可持续发展的产品体系、配套教材，并提供教师培训，为国内学校和培训班提供完整的解决方案。

第二类是来自欧美或者韩国的众多“进口品牌”。这类品牌存在的最大问题在于其产品体系受到第三方牵制，可能有一定的滞后性和局限性，课程方案也会存在一定的断层，可持续发展性不强，对于青少年的教育价值也会受到相对的影响。另外，这类品牌与中国的教育市场尚不能完全无缝对接，对于进入学校课程体系存在一定隔阂。

第三类是跟风市场的模仿品牌，这类品牌缺乏底蕴和教育理论基础，往往以产品为重，但是产品体系不具完整性更无特性，该类品牌显然无法带给孩子应有的教育价值。

❷ 商业模式

技术算法驱动者——技术层+场景应用

一站式解决方案助力高效产品化

智能家教机器人

在产品冷启动阶段有效降低用户购买门槛，吸引大量用户（利用2B和2C的渠道迅速积累大量用户），成为未来母婴与教育消费的新入口。届时叠加增值服务进行商业变现。通过积累的海量用户数据，持续优化用户体验，提升产品竞争力。

智能教育机器人：

前期免费（利用2B和2C的渠道迅速积累大量用户），后期考虑收费。学校渠道推广；基于流量的广告业务。

建立辅导系统，补充课堂教学 + 学习社交平台，筛除低质量内容 + 创建定制教科书和练习，个性化教学风格

教育零散辅助工具 > 教学环节系统化辅助 > 全方位与老师配合 > 主导教学，老师辅助 > 全智能系统

终身学习伴侣

❸ 应用场景

分类： 从市场角度分析，教育机器人分为“机器人教育”与“教育服务机器人”

应用场景：

教育导向主要研究机器人在教育中的应用，包括 STEAM 教育的机器人教育或编程教育等；

应用服务机器人教授各种主题科目，称之为 Robot-based Learning；

计算机科学导向主要研究可能应用在教育中的机器人技术，称之为 Educational Robotics。

❹ 实际案例

左图：来自3016年partnerX位于火星Oculus基地的能力风暴移动系列奥科流思，着重提升语言智能和人际智能等多元智能能力；其具有超强的语音识别、人脸识别系统，寓教于乐，让少年儿童在快乐中训练成功能力，提升科技素养。

右图：来自3016年partnerX位于地球Everest基地的能力风暴类人系列珠穆朗玛，着重提升少年儿童音乐智能和身体运动智能等多元智能能力；作为类人形态的机器人，珠穆朗玛外形帅气，多自由度仿生设计让他和人一样自由行走转弯，能歌善舞，让少年儿童在快乐中训练成功能力，提升科技素养。

设计

4.1 人工智能时代带来的挑战

需求不确定；

难以判断产品\项目效果；

缺乏数据（市场、用户、反馈）；

…..

◆ 找2B场景痛点的方法

方法1：

不仅切垂直行业，还要切更细分的垂直场景；

两个衡量指标：场景边界明显 & 有产品闭环及商业闭环

方法2：

从行业当前的痛点入手。

例：某医疗AI影像公司，用机器学习做医疗影像识别，提高医⽣的看⽚效率、降低误诊率。

◆ 找2C场景痛点的方法

方法1：

找AI应用层，AI辅助人工。

2B2C更容易落地，而不是直接服务于C用户。

例1：购车bot助手

普通消费者 → 选车顾问

4S店销售员 → 协助其找到最适合用户的车，引导其运用正确的话术流程

◆ AI技术黑盒

技术黑盒，是有内涵和外延的。内涵是指这个东西到底是怎么回事，外延从外部输入控制信息，根据他的输出信息来判断他的功能和特性。

不要试图从从内涵的角度了解技术，你的最终目标不是技术专家。

首先，可以从效果来定义技术，即它能达到什么样的效果。其次，从适用环境来定义技术，即这项技术适用于什么样的环境，环境变了会有什么样的变化。再其次，从产品消耗的资源来定义它，即如果要实现这样一项技术，要消耗什么样的资源，要多少数据；然后如果环境变了，或者说如果在资源不够的情况下，会产生什么样的问题。

此外还可以从团队配置来定义技术。

4.2 VUI-一种新的交互方式

随着技术的发展

VUI语音交互界面成为了一种新的交互方式

对于大部分智能硬件产品来说，GUI+VUI是他们的主要交互方式。

从效率的角度来看，GUI 的一个界面上可以展示非常多的内容，所以更适合做广度展示。而 VUI 更适合做深度展示。对话本身就可以多轮次的。如果对话是理顺的，用户可以跟机器人进行 10、20 轮对话。但在 GUI 的情况下，完成一项任务需要点击十次二十次鼠标，需要十到二十个页面才能完成这项工作的话，你会觉得这个设计过于繁琐。

从用户体验上来讲，GUI 会更强调空间感，VUI 更强调时间感。当用户在面对一个GUI界面的时候，用户更在意的是什么功能在什么位置，重要位置的功能会得到更多的感知，并且对某些固定的位置用户会有预期的，潜意识认定某个功能的 Button 应该放在什么位置。所以在做GUI设计的时候，设计空间感是最重要。

VUI对话式交互并不是发生在一个空间的场景里的，它是发生在一个时间的场景里的。所以用户会对时间流失有感受，会对哪个内容在先，哪个内容在后上有感受。

从预期 (Anticipation) 的角度来看，人们对 GUI 的感受是公共的。在 GUI 上做个性化推荐这件事，希望做到千人千面，但用户普遍预期还是，我看到的东西跟别人看到的东西是一样的。但是对于对话这件事大家没有这个预期。几乎在每一个对话中，用户对这个对话的预期都是个性化的，认为对话机器人应该针对我说一些我所预期的东西，由此用户会有更强的参与感。

人阅读文字的速度可以达到500~1000字每分钟，说话时语速可以达到200~300字每分钟，所以视觉阅读的文字信息可以达到听觉的2-5倍。

人主要通过点击和手势的方式与GUI进行交互，至于人在做什么其实计算机是不知道的，它只是将点击和手势转化为坐标和操作两种数据，再给予相应的响应事件，例如打开链接、获取数据库的信息。

人通过对话的方式与VUI进行交互，对话过程中使用的自然语言属于非结构化数据，VUI要给出正确的响应事件必须要先理解人类在说什么，更重要的是在想什么。

GUI的信息架构包含了页面和流程，页面里包含了各种布局和结构；而VUI的信息架构只有流程，所以GUI的信息架构要比VUI复杂。由于页面操作的限制使GUI无法随意切换毫无相关的流程，而通过对话交流的VUI可以做到这一点，在导航的便捷性上，VUI更胜一筹。

为什么要将GUI转换为VUI？1.现有互联网的绝大部分内容和数据都与GUI的信息架构和代码有关，所以我们没有必要为两个界面做两套内容。2.这有助于人工智能助手的发展。

在转换策略上我们可以借鉴成熟的无障碍规范指南——a11y，部分内容是为失明人士提供帮助的，可以将界面内容转换为声音内容。

当然GUI和VUI应该是相辅相成的，它们一起完善了我们的交互场景

可感知性：

可感知性：为所有非文本内容例如图片、按钮等等提供替代文本，使其可以转化为人们需要的其他形式。现在的通用做法是为图片、按钮等非文本内容增加描述性内容

苹果旁白并不是会读出框中所有信息，而是读出重要的信息，如店名会被省略，增加了深圳包邮这条图中没有的信息。

适应性：

以上内容普通人花几秒就可以看完；如果以VUI的形式进行交互，首先VUI不知道从哪开始读起，其次是用户没有耐心听完全部内容。为什么？因为GUI的结构有横纵向两个维度，VUI结构只有一个维度，用户在GUI上的阅读顺序无法直接迁移到VUI上，所以a11y希望页面设计时可以采用简单的布局，GUI和VUI采用相同的结构，避免丢失信息或结构。

可导航性：

在可导航性上，a11y希望网页提供一种机制可以跳过在多个网页中重复出现的内容模块。在这里我有新的想法：可以直接跳过无需朗读的内容模块，例如淘宝的导航、主题市场、登录模块，因为用户使用淘宝VUI主要需求为搜索物品和获取优惠信息。同理，是不是可以增加一个“跳过”属性，当VUI阅读到该位置时可以直接跳过，当用户有需求时，可以通过对话的形式对该位置的内容进行交互。

此外，还可以为大段内容如新闻、介绍等增加“文本摘要”属性，当VUI阅读到该标签式，自动使用文本摘要功能。

4.3 VUI的设计原则和方法

◆ 选择正确的用例

用户可以马上回答出来的。

那些需要常用信息输入的操作，如基本的用户信息、位置、时间和日期。当用户被询问到他们已经知道的信息的时候，他们可以很快地作出回应，VUI也可以快速存储并且最大程度地减少耗时，把时间留给接下来的操作。

快速、同时是强有用的。

这种类型的业务通常花费的时间很少，但却可以给用户带来很多的好处。例如，在几秒内订一个餐然后半小时就送达了，或者叫一个出租车，然后车在几分钟内就到了你家门口。其他类快捷的用例可能还有查找答案、进行快速计算、记录或跟踪信息，或者任何可以不用打断你做另一个任务的事情。

本质上更适合语音的。

这些事情通常情况下人们会更希望以“解放双手”的姿势来完成，例如正在做饭听烹饪菜谱或者在开车的时候写心情日记。

选择正确的用例：适合的用例通常简单直观，不会过于复杂

◆ 创建人物角色

在设计你的对话界面之前，思考你的对话想带给用户什么样的感觉。

如果你在做一个有趣的游戏，你可以会用一种调皮的语气说话。如果你在做一个新闻朗读器，你可能会使用一种更严肃的语气。

VUl设计应该要针对单人语音助理（或其他任何在对话中作为对话创造者的角色）的心理模型。

用户研究将帮助我们更好地理解这个心理模望，因此我们要为“人”设计，并且让设备遵循。

人物角色可以帮你设计和编写对话，尽早地选择人物角色可以帮助你更容易选择合适的词语，语法和结构。

请记住，无论你是否计划为你的机器人创造人物角色，用户都会从话术中感知出一个性格，这是一个为你的品牌打造一个你期望的“独特体验”的好机会而不是仅仅依赖运气。

编写人物角色：通过VUI的对话和功能来保持整体一致性、独特的品牌呈现和性格

◆ 编写对话

一个可以让用户顺利进行的“理想流程”。

其他用户可能采用的，但是终点和“理想流程”一致的流程。

当用户做一些意外事情的时候，需要的对话补救流程。

用户聊天中途退出，或者用户完成所需操作后所需的话术流程。思考如何确认一组对话的结束。

和用户打招呼，告知用户如何调用不同功能的话术流程。

了解对话的三类需求

1.基础问答的需求。

可以描述为：我有一个问题，请你回答我。

2.任务流程协作的需求，以达成某种目的为止。

可以描述为：我想请你帮我买一张明天下午14:00-18:00出发，北京到上海的机票

3.共同的情感建立。

聊天的目标很难定量量化，我们更多是尝试定性地去制定聊天的目标。可能是心情不好需要人陪，也可能是好事情需要向好朋友分享，我们需要对话来表达进行最直接即时的表达。

封闭域对话的设计逻辑延续自“IFTTT（if this then that）”，是workflow的进化交互形式，大多数封闭域对话都会设计地如同助理或者秘书，譬如阿里小蜜，百度度秘。封闭域由于拥有特定的目的性，往往都是在单一确定的场景里。封闭域有一个很重要的问题，就是用户可能随时跳出封闭域，开始聊其他的话题，或者不按照预设的规则逻辑出牌，因此边界处理很重要。

2011年在人人网上横空出世的“小黄鸡”算得上是国内最早出名的开放域对话机器人，其后发展最好的当属微软小冰。开放域对话最大的特点是：输入无法穷尽，导致输出无法穷尽，而且对话没有确切的结束点，无流程可言。

我们一般情况下想去考验一个机器人是否智能，通常考验的就是开放域对话。开放域对话机器人有两个产品陷阱，一是面向用户的机器学习，二是无人为引导的个性。

明确AI对话聊天产品的分类

技术视角：“开放域”和“封闭域”

用户视角：“教育版本”、“医疗版本”、“二次元版本”等等

业务视角：2C和2B2C

编写对话的思考逻辑

一、解决基础交互问题，让用户能开始对话（1~10轮）

1.Q/A数据，或正则表达式（20%的问题覆盖80%的对话量）

Q/A数据

Q：图灵机器⼈人的CEO是谁

A：俞志晨