【专访】黄学东：CNTK是我们的秘密武器

三余无梦生 2016-10-21

展开全文

编者按：看过昨天关于微软对话语音识别技术再创词错率新低的报道，你是不是也有问题想问参与这一项目的研究员？这里转载微软首席语音科学家黄学东在9月底接受《机器之心》采访的节选，听他分析人与机器的最大区别在于人的鲁棒性非常好，以及CNTK如何帮助微软团队持续完善语音识别技术，他同时认为人工智能研发从整体而言目前仍然处于从感知到认知的过渡阶段，前面还有很长一段路要走，不知这一判断算不算悲观？……如果你的好奇心还没得到满足，欢迎留言继续提问。

黄学东

记者：词错率从十年前的 50%到今年9月的 6.3%，这十年来您觉得这个速度是快还是慢，语音识别最终可能会达到人类水平，在这之后技术未来的发展方向是什么？

黄学东：这个速度还是相当惊人的。过去 20 年，基本上每年错误率都会较上一年下降 15% 左右，按照这样的速度推下去，语音识别达到人的水平指日可待。但是人的鲁棒性比机器好很多，比如我们可以隔很远说话，人听起来没有问题；或者在鸡尾酒会大家都在谈话，人的耳朵可以很灵敏，要想听什么东西，他可以听什么东西。但是机器这个能力相对比较差，在高噪音、有口音、小孩儿说话或出现不熟悉的内容的情况下，机器 6% 的水平可能会变成 20%、30%。

这是人和机器的最大区别，人的鲁棒性非常好，一个新的课题过来，他可以通过会话的方式跟你沟通，也能得到很好的结果。而机器对噪音的抗噪性不够强，对新的课题会话沟通能力比较差。最重要的一点是，语音识别并没有理解你的语义。理解语义是人工智能下一个需要攻克的难题，这也是我们团队花很多时间和精力正在做的事情。

要做好语音识别需要更好的语义理解，这是相辅相成的。因为你没有知识，你就听不懂别人讲的话。比如我讲一个很高深学问的问题，如果听的一方没有对我说的话题有足够的知识，基本上是对牛弹琴。

记者：您从 1993 年加入微软，到现在差不多 20 年了，这期间语音研究思路上有哪些变化？微软在语音产品的思路上又有哪些变化？

黄学东：变化非常大。微软 1995 年第一次在 Windows 上推出了语音识别的 API（Speech API，简称 SAPI），非常具有历史意义。SAPI 是工业界第一个完全基于 PC 的 API，也正是由我的团队推出来。过了二十年，“微软认知服务”（原“牛津计划”）再次推出，是以云为先的语音 API。很凑巧从 1995 年到 2015 年，20 年完成了从 PC 端到云端的变化。现在“微软认知服务”包括 21 个不同的 API，其中语音识别、语言处理等部分都由我现在的团队负责。

所以我很感慨,20 年的风风雨雨，微软从 PC 电脑为中心完全转型为以云为中心，其中没有变的就是人工智能。不管当时 PC 为中心还是今天云为中心，人工智能都是中心的中心。

微软再往前走，云中心之后应该是以智能云为中心。人工智能没有大数据、没有强大的计算能力，就不会有很大的智能。

今天的人工智能为什么能够脱离过去几十年人工智能的寒冬，最主要的原因是两个，一是现在的数据量变大了，一是计算机运算能力提高了。有足够的计算能力,计算机“死记硬背”也会显得好像很聪明。其实深度学习、神经网络这些东西早就有了，但那时计算能力不够，数据量也不够大，所以没有太多用。

现在看来深度学习能把以前不能做的事情做到了，我们每个人都在说深度学习怎么怎么牛，但最主要的不要忘了，因为现在有计算能力，有大的数据，才达到了以前我们没有达到的水平。

微软有一个开源的深度学习工具 CNTK，Cortana、Bing、HoloLens AI 的训练等都是在 CNTK 上实现的，不仅仅这个 6.3% 的语音识别技术是在 CNTK 上跑的，我们的 Cortana 的识别、产品系统都是在这上面跑。

CNTK 和其他的开源软件最大的不一样，是它能做大规模、分布式深度学习，性能体验也非常好。一般开源软件只能在一台 4 个 GPU 的电脑上运行。但 CNTK 在 64 台机器上运行都没问题，是真正的大规模、分布式的深度学习开源软件。我们今天能刷新语音识别纪录，真是归功于 CNTK 这个开源工具。

CNTK 是我们的“秘密武器”。我们把秘密武器开源了，但在里面装什么样的子弹、弹药，你自己决定。

事实上微软是开源最大的贡献者，可以称为“无名英雄”。我们将时间和精力全部投入在创新最优秀的技术，服务于我们的客户。Switchboard词错率创新低不是谁都可以做出来的，这体现了微软在人工智能技术、深度学习技术上二三十年的积累。

记者：在整个人工智能布局上，您认为语音识别的定位是怎样的？

黄学东：就像我们在跟人讲话的时候把他的嘴去掉，或者把他耳朵去掉，语音识别对人工智能是非常重要的。当然脑子最重要，人工智能就像孟子讲,“劳心者治人，劳力者治于人。”有脑子、能推理，能理解周围的环境、能了解人心，有 EQ、有 IQ，这才是最强大的。

人工智能最重要的是要有知识，能理解语言，能帮助人沟通，能推理、能分析大数据，能得出最优秀的结论。最后能做梦，那才了不起。语音识别是把音频转换成文字的过程，这个过程相当复杂，体现了人工智能今天最优秀的技术能达到的水平。

图象识别也是类似都是从 A 到 B 转换的学习。到了理解语言、理解语义、深刻地领会意思，就不再是简单的 A 到 B 的映射过程。因为语意没有音义，我讲了一句话具体是什么意思？你要把它翻译成文字定义是非常清楚的，但意义每个人都有不同的理解。这才是人工智能最核心的关键。

通过语音识别做机器翻译，或是通过计算机视觉技术描述图像，只是做到了 Perception（感知）。人工智能不仅仅要有感知，还要有认知（Cognition），这才到了高级阶段。除了认知还要有情感（Emotional Intelligence），这是更高级的，是“劳心者”了。我觉得人工智能最高级阶段是要“劳心”，不仅仅要感知，要有认知，还要“心知”。“知心”最难，人都不一定能达到这个水平。