对话微信智聆团队：坐拥近10亿用户，微信如何用好语音这一入口？

万皇之皇 2018-01-19

展开全文

大数据文摘作品

记者：谭婧

如果说PC时代的搜索引擎成就了谷歌，造就了这家当今世界最大的数据公司，那么随着智能产品的普及，谁先用现象级产品掌握了语音的入口，谁就将成为AI时代的赢家。

而在今天，没有哪个入口能比得上月活用户即将达到10亿的微信。

亚马逊Amazon Echo、苹果Apple HomePod、谷歌Google Home

“语音转换文字对（微信）用户来讲是很刚需的场景。”微信智聆技术团队告诉大数据文摘记者。确实，相比用“手”和“眼睛”，以及其他以手机和电脑为媒介的操作，“语言”无疑是人类最自然的交互方式。

纵观海内外科技巨头，多数通过“智能音箱”这一产品作为切入口。然而目前，在复杂的现实场景中，智能音箱的交互体验依然有限，比如调节空调温度的时候，向智能助手喊话可能还不如直接动手按按钮来得方便。

创新工场人工智能工程院副院长王咏刚也曾公开表示，仅仅是智能音响的唤醒词背后，就蕴含有巨大的技术含量：“如果要把唤醒词做到唤醒成功率70%以上，且唤醒的区间在1米到10米之间，并兼容众多不同的噪音环境，这是一件非常难的事情。对于现在已经发售的智能音响来说，能做到并做好的寥寥无几。”

相比而言，在微信中的这一应用就贴合得多。微信中常用的“微信语音输入”、“微信语音转文字”，以及王者荣耀里面的语音转文字功能背后，都由微信智聆团队提供技术支撑。

2017年11月微信正式推出微信智聆，这是微信AI团队基于深度学习理论自研的语音识别技术。为此腾讯准备了五年，在腾讯产品线微信、QQ、游戏、搜索等数十个产品中逐步应用。除了微信端，这一技术还在腾讯的其他产品线发挥了效用，包括腾讯翻译君、王者荣耀。腾讯表示这是目前业界领先的通用语音识别技术。

在1月15日的微信公开课PRO版之后，大数据文摘记者和微信智聆团队聊了聊语音识别技术。

大数据文摘：语音识别是感知技术这一类里面前沿的技术，许多人看待这个技术的时候觉得语音识别似乎已经被解决了，微信智聆如何看待现阶段语音识别技术存在的问题和机遇？

微信智聆：语音识别并不是已经解决的问题，语音识别的最终目标是任何人，在任何环境，用任何风格，无论大声还是小声，无论是正式还是随意，说任何领域的话，都可以被准确地识别出来才算。然而，这个目标目前并没有做到。目前业内比较普遍、成熟的还是环境基本安静、偏朗读方式的语音，这种情况下可达到较高的识别率，基本达到实用。但是，在碰到以下情况的时候，解决得还不够好：

(1) 环境嘈杂

(2) 远距离

(3) 重口音或纯方言

(4) 口语现象，说的很快，很随意

(5) 领域很相关，比如涉及到某个专业领域大量专有名词。

技术困难既是机会，更是语音识别赋能社会的机遇。在解决这些问题后，语音识别可走入千家万户与千行万业，真正成为提升社会效率的一个有力工具。

大数据文摘：近年来，语音识别技术取得了长足的进步，微信智聆的核心技术在哪里?

微信智聆：我们采用了深度学习神经网络LDNN结构，在解码空间，我们使用了大量数据训练的语言模型来尽可能覆盖更多的语言现象，同时使用了GPU进行推理，大大提升了效率。

大数据文摘：尽管采用了深度学习的技术，但语音识别技术仍然避免不了错误，而开发者的任务就是使得它能够像人一样，在有错误的时候去进行人机交互，修正错误，这需要感知技术和认知技术相互的帮助来实现。请问微信智聆如何用这两种技术相互帮助的？

微信智聆：目前更多的是通过统计模型在语音识别结果上做一些文本顺滑类的工作，尽可能去保证句子的主干是识别正确的。

大数据文摘：微信智聆语音的数据有什么样的特色？