机器学习推助谷歌翻译能力接近人的水平

llvsh 2016-10-02

展开全文

BI中文站 10月1日报道

没有人批评“谷歌(微博)翻译（Google Translate）”欠准确。Google Translate作为一种在线翻译工具，推出已有10多年之久，如今已经能够翻译100多种语言，而且还能够翻译外国餐馆的菜单和标识系统，甚至还能实时鉴别方言。

当然，一款工具无论做得多好，总有其值得改进的空间，Google Translate也不例外。仍以Google Translate为例，此服务仍在通过机器学习不断进行改进。

该项目被称为谷歌神经网路机器翻译系统(Google Neural Machine Translation)，简称GNMT。谷歌工程师夸克·维·乐（Quoc V. Le）和迈克·施斯特（Mike Schuster）表示，严格地讲，这也不是什么新鲜的系统，不过，此系统首次部署，以用来提升单句的翻译效率，另外，在翻译之前，该系统还要鉴别单词和短语的意见。但是，研究团队发现，这种算法在处理整个句子时非常有效，而且可以将错误率减少60%之多。而且，该系统还能够及时的调整翻译的准确度。苏斯特表示，“你们没有必要进行设计选择，该系统能够完专注于翻译。”

在周一的一份白皮书中，Google Brain团队详细阐述了GNMT的来龙去脉，其底层结构是一个长短期记忆网络（LSTM）。LSTM是一个神经网络技术，工作模式与自然人的记忆模式有点类似。常规的翻译算法是将一个句子分成各个单词，这些单词再与字典配对，但是，像谷歌新翻译算法的LSTM支持系统能够有效的进行“记忆”一个句子的始终。因此，Google Translate就能够进行双向处理：GNMT分解单词的意思，进而再整合到句法成分之中，然后再将此结果翻译成另外一种语言。

GNMT模式能够极大地提升翻译的准确率，但从历史的角度来看，这种模式的翻译速度却不是很快。不过，谷歌却利用了一些技术，极大地提升了翻译速度。

正如《连线》介绍的那样，神经网络通常采用分层计算方式。与此同时，GNMT则利用谷歌专业化人工智能优化电脑芯片所提供的处理能力来强化自己的翻译效率。这样，此前通过LSTM模式需要10秒钟翻译完的句子，如今只需要300毫秒就够了。

与此同时，翻译的质量也有了巨大提升。在一次语言精确度测试中，Google Translate的旧模式得到了3.6分（满分是6分），而GNMT翻译结果则得了5分，略低于人力翻译的平均得分5.1分。

苏斯特表示，Google Translate当前的翻译质量还没有达到十全十美的程度，甚至会犯下许多人永远不可能犯的错误，例如遗漏单词、错译人名或罕见的术语等，甚至割离了整个句意，而没有根据上下文翻译句子的真实意思。但是，谷歌工程师花费了一周时间，在100多个图形芯片单元上培训GNMT翻译系统。谷歌相信，这种翻译模式将会不断得到改进。

GNMT或许是谷歌机器学习试验的最新产品，但不是第一个产品。早在今年初，谷歌DeepMind部门制作的AlphaGo软件成为史上首个在围棋项目赛事中打败人类大师的人工智能产品。（编译/金全）