腾讯叮当智能助手—语音识别正确率96﹪以上，未来将完整开放

期盼又见晨曦 2018-01-06

展开全文

2017腾讯全球合作伙伴大会仍在火热进行中，在11月8日下午的人工智能分论坛上，腾讯智能平台部总经理陈谦带来了有关腾讯智能助手系统——腾讯叮当的重要分享，并探讨了腾讯在智能时代的场景化机遇和挑战。

在演讲结束后陈谦接受了前方智能在内多家媒体的采访，相关内容整理如下：

| 腾讯叮当智能助手

大家好，我是来自腾讯智能平台部的陈谦。

腾讯智能平台部团队负责包括语音助手、图像识别等人工智能产品的研发与推广工作，今天很高兴能在这里就智能时代与场景化这个主题和大家分享我们对过去及未来的一些思考。

首先介绍下我们的产品，腾讯叮当——智能助手系统，提供高质、完整、开放的人工智能服务，帮助硬件设备快速获得听觉和视觉的交互能力。

关于今天的主题，人工智能与场景化，我们将从智能硬件的特征来展开讨论，第一个是感官能力的多样化。接下来我们以一个小孩的成长为例。我们经常看到周岁婴儿抓周的画面，这说明一个周岁的婴儿已经具备了对物理世界的基本认知能力。然后，她开始学会说话，逐渐具备对语音世界的认知能力，能够开始参与沟通。再往后，她开始学习写字，逐渐具备对文字世界的认知能力，能够开始参与知识传播。从物理世界、到语音世界、再到文字世界，这三步就是我们每个人的典型的认知能力成长过程。

提到语音，经常有人比较语音界面与图形界面。我认为语音界面有以下两个特征：

语音界面两个特征：

第一，语音界面是对自然度要求最高的交互形式。

为什么这么说？因为图形界面在本质上是一种建立主动性强引导的交互，当你打开一个界面时，他就已经在按照严密的既定设计意图去引导你完成既定目标。相比起来，语音界面能给你提供的引导很少，而当你处于一个弱引导性的交互环境中时，交互形式是否自然对产品成败就非常关键。目前这个历史阶段，做语音界面的核心就在于探索出做到“自然”的办法。

第二，在“自然”的基础上，语音界面天然包含了丰富的情感信息量，例如平静、惊喜、失望等，他们都是传统图形界面难以传递的。

我们做语音界面，如果能传递出适当的情感信息，也就是在最大化利用语音界面的独特价值。

| AI产品场景化四条原则

1. 真正自然而优美的语音交互

AI产品场景化的原则一共总结为四条，以上谈的是第一条，真正自然而优美的语音交互。请注意关键词，“真正的自然”、“真正的优美”，只有做到这样，语音交互才开始具有实际的竞争力。

2. 视觉与听觉信息的高效配合

AI产品场景化原则的第二条就是我们刚才探讨的，视觉与听觉信息的高效配合。

在我们生活中，视觉信息的比重比语音信息更大，所以近期来看做好纯语音交互是基础，长远来看做好视觉与听觉信息的高效配合才是关键所在。十几年前已经在手机上出现语音交互，但视觉与听觉信息的高效配合还没被真正做到。有个很有意思的现象，对一个界面而言，假设只使用视觉信息的效能是1.0，只使用听觉信息的效能也是1.0，那么5年之前，很多结合了视觉与听觉信息的产品案例，加起来的效能反而只有0.X。也就是说，视觉与听觉不但没能互为补充，反而互为影响。近年来平均水平增长到1.X，但还没达到视觉与听觉信息的总和2.0。看未来，等我们人类找到结合好视觉与听觉信息的办法后，它们配合的总效能可能是指数级的增长，变成10.X这样。这种增长，对产品的场景化会很有帮助。

3. 单场景单设备的极致闭环

随着计算设备的增强与小型化，它们的场景也发生变化。在过去的个人电脑时代，你可能只有白天在公司，晚上回家后使用下电脑，场景很规整。在移动时代，使用的设备更多、片段更短、场所更杂。总结来说，我们看到了越来越明显的场景碎片化的趋势。

对应这个趋势，我们有两条产品场景化原则。一个是单场景单设备的极致闭环。所谓极致，就是轻松、高效、自动。以前需要多人多设备多步骤的操作，现在由单设备完成，比如以下几个例子：

机器人拍照

我们机器人拍照只需一个语音口令，机器人就能根据你们的声源方向来转头，根据它摄像头里的图像识别来调整镜头焦距，甚至还能根据预存的头像来识别出都是谁，全程自动帮你们完成拍照。我们一起看下演示视频。在机器人方向上，我们现在正与优必选公司合作，一起打造机器人。

腾讯叮当智能电视

接下来是腾讯叮当的智能电视，当你看球赛或电视剧时，如果对屏幕中的人感兴趣，以前只能拿出手机搜索。现在变得很简单，你只需要对电视说这个球员是谁，就能在屏幕上看到他的名字等信息。这还不止，基于我们完善的知识图谱，你还可以进一步问电视他本赛季的每场平均得分。我们看到，单设备完成了以前多设备的任务。在智能电视方向上，我们正在与长虹合作一起打造产品。

腾讯叮当智能耳机

这个智能耳机在运动场景时，耳机能够根据你的运动状态去支持你更好地完成运动。

腾讯车联网

腾讯车联网当你启动GPS导航去一家餐馆时，我们的语音智能助手能快速帮你完成订座。

单场景单设备的极致闭环，就是我们AI产品场景化原则的第三条，刚刚提及的四个腾讯叮当的案例都和这个相关。

4. 跨场景多设备的无缝衔接

再回到场景碎片化的趋势，除了单场景单设备的极致闭环，我们还需要做到跨场景多设备的无缝衔接。这两条思路紧密相关，只有第一条做好，第二条才可能。

这是装载了腾讯叮当的智能音箱和手机的跨场景案例。当你在家里音箱上收听读书时，如果对一本书感兴趣希望一会出门后在地铁上接着看，可以告诉音箱将它发送到你的手机。我们一起听下演示。

好的，那现在我们就已经讲完了AI产品场景化原则的全部四条。真正自然而优美的语音交互、视觉与听觉信息的高效配合、单场景单设备的极致闭环、跨场景多设备的无缝衔接。

要探索场景化，核心是技术的支持，腾讯叮当建立了全栈的技术能力。

一个语音助手首先要听得清。在唤醒和语音识别上，我们的3m唤醒率达到95%以上，语音识别正确率达到96%以上。对于一些生活中的常见场景，例如GPS导航和音乐，我们在数据和算法上做了大量针对性的优化，力求在特定场景下做到最好体验。

在听得清之后是听得懂。腾讯叮当的语义理解拥有千万级的语料标注、海量的知识图谱，深度融合了语音识别来提升了语义理解的纠错能力，在完善的用户画像基础上能够建立起个性化语义。

在听得懂之后，我们还要答得上。腾讯叮当建设了过百个领域服务，覆盖各类场景，在广度和深度上满足用户需求。例如在内容消费场景，我们有歌曲最新最全的音乐、自制的高品质音频新闻。在家庭陪伴场景，我们有儿童类服务。在运动场景，我们和咕咚公司合作一起打造智能运动的相关服务。

不仅要答得上，我们还要让用户感受到愉悦。我们的语音合成TTS技术分四步：逼真化、个性化、情感化、场景化。

以上所有的技术能力，通过Tencent Voice Services，简称TVS，提供给到终端硬件厂商使用。TVS是市面上最灵活的终端接入方案，无论是从技术方案、产品方案、还是商务方案的角度，我们提供了灵活、开放、和定制化的接入方式，帮助终端硬件厂商满足各自需求，能够非常快速、容易地接入腾讯叮当，获得智能能力。另外，TVS和亚马逊AVS适配，也就是说对已经支持AVS的硬件设备而言，厂商可以非常容易地无缝切换到TVS。

| 会后采访

演讲结束后，陈谦接受了包括前方智能在内的多家媒体采访，智能君编辑整理如下：

以下Q代表记者提问，A代表腾讯陈谦等的回答。

Q：腾讯叮当在今年4月份推出，目前腾讯叮当在研究过程中遇到哪些难题？未来会落地到哪些智能硬件产品上？

A：落地的硬件方向，比如落地到车载上，可以看到叮当， QQ浏览器的AI也在用。

Q：腾讯为什么做这样一款智能语音系统？因为腾讯投资过相关类似的公司，在硬件层面之后会不会做智能音响或者其他的智能硬件产品？会不会把语音系统给它开放出来，授权给硬件方用来做语音智能系统？

A：我们肯定是开放的，我们现在提供的是高质的、完整的开放。

另外第一个问题就是为什么我们要做这样一个语音助手，因为我们刚才提到过，语音交互可以看到它是下一个计算平台一个必然的趋势，既然它是一个必然的趋势，那么我们就要尝试在这块给到无论是厂商，还是生态，还是给消费者，在这方面提供高质的体验和服务。

Q：现在腾讯智能平台现在的发展规模如何？规模大概如何？

A：总部是在深圳，北京有专家团队，成都、武汉有我们的研发中心，规模大概有200多人。

Q：腾讯智能平台跟AI Lab或者优图的区别在哪里？

A：可能大家专注的方向不一样。

腾讯是面向业务落地的公司，更多看重技术能够为用户发展什么。所以优图的专场可能更多在图像上，比如优图的人脸识别在全球都是非常领先的，腾讯叮当更多的关注与把腾讯自研的技术变成以语音助手为形式的服务模式，服务产品，带给终端用户。AI Lab在腾讯内部更多的是关注人工智能的核心算法，更关注人工智能核心技术突破，未来AI Lab算法突破在业务上作为一个支撑。

Q：我有两个问题。第一，现在叮当可不可以跟微信和QQ做一些社交或者是机器的人机对话？第二个问题，目前叮当可以服务的是腾讯内部的，包括订做或者打开音乐，日后会不会跟其他外部的软件合作？比如是不是可以让叮当打开百度地图，类似这种的合作未来有没有？

A：我们会选择具体的产品，微信和QQ的开放性在公司内部其实还是谨慎的，用户在微信和在QQ类专注于通讯，在通道中是相当谨慎的。用在车上是极度依赖非手操作，我们会用在车上，帮助用户做外界的沟通。因为人的精力一下转到聊天的过程中，对他驾驶那个产品是干扰还是帮助，现在不好说，还在尝试。

A：对于第二个问题，我们是开放的。我们对外提供的解决方案分两块：

第一是TVS，是对接硬件厂商的。

第二个是TSK，是对接软件开发者。

Q：腾讯智能平台在武汉、成都，已经建了四个点了，这四个点中现在本部在深圳，那么其他的点是提供哪些服务模块来配合本部来做这件事情的？

A：对于四地的分布，肯定大家在一起工作是效益最高的，我们对行业布局的原则还是以人为中心。就是优秀的人在哪儿，我们就去哪儿。整个AI大的框架起来之后，人是非常稀缺的，核心的，真正有实力的优秀人才非常稀缺。深圳在AI上，在核心技术领域上，深圳的人是稀缺的，更多的人可能选择成都和武汉，一个是过去咱们本身就有分布，第二个是高校是在中原地区相当最强大。成都的高校，武汉的高校都是开展了很长时间，我们就地以人为中心做研发中心。

号外！前方智能入驻Flipboard红板报啦，在应用内搜索“前方智能”即可关注！