【原】同传或被机器取代搜狗实时机器翻译进入实用阶段

懂懂_笔记 2021-07-29

展开全文

懂懂笔记

搜狗知音引擎再发重量级产品实时语音翻译迎来质变时代

随着语音翻译的正确率大幅度提高，或许不久的将来，同传翻译将会加入被机器人替代掉的失业大军。

在乌镇的互联网大会上，搜狗CEO王小川发表了以《人工智能的未来之路》为主题的演讲。这是一场在中国举行的国际性会议，为了方便来自全球的听众，王小川亮出了搜狗的秘密武器：机器同传，即实时语音翻译。

王小川用中文演讲，他的讲话内容被语音识别为中文显示在大屏幕上，在中文的下面，还有一排同步翻译出来的英文。从语音识别到完成机器翻译，整个翻译的过程只需要两秒。据悉，语音实时翻译技术是搜狗语音交互引擎“知音”最新推出的重要功能，也是知音引擎取得的又一重大技术突破。

搜狗语音交互中心技术负责人陈伟11月21日接受了懂懂的采访，在谈到这一重大突破的研发过程时，用了这样一句话：“what is possible in principle is not always what is simple in practice。”（译为“看起来容易做起来很难”）

准确率可以提升30%－40%，神经网络给机器翻译带来质变

以输入法起家的搜狗，近几年一直在AI方面做了大量的研究和探索工作。今年8月份，搜狗知音引擎发布。时隔三个月，语音实时翻译技术发布，这是知音引擎的一项新能力：基于大数据和神经网络的深度学习，将语音识别和机器翻译两项技术打通，在2秒钟内完成端到端的翻译过程。

对于用户而言，看上去极其简单：对着机器说出中文，2秒钟后翻译好的英文就出来了，几乎没有延迟感。但实现这个过程，对于后台却是极大的挑战，用传统的机器翻译的方法，已经不能保证翻译的速度和正确率。

据陈伟介绍，搜狗机器翻译融合了业界领先的端到端神经机器翻译技术以及基于实例的翻译技术，使用的端到端神经网络翻译模型通过编码端获取源端句子的分布式表示，利用注意力模型聚焦源端，使用循环神经网络生成翻译结果，翻译的结果比传统机器翻译更加流畅，效果更好。

到底什么是端到端？什么是神经网络？比传统的机器翻译有什么本质的不同？

搜狗语音交互中心负责人王砚峰告诉懂懂：传统的机器翻译都是通过规则去做，比如用人脑想一些特征、规则，机器会根据这些特征和规则得出翻译的结果。翻译结果的好不好，在取决于人制定的规则好不好。而端到端神经网络翻译模型，是完全通过模型，放多个参数进去，通过机器学习，把这些参数进行组合。“把参数和模型构建好，机器自己去跑就可以了。机器越跑越聪明，这可以更优雅、更精准地完在翻译的工作。”

机器翻译已经是存在多年的技术，但是翻译的正确率始终无法得到关键性的突破，根本在于“不智能”，不会自我学习。最近机器翻译逐渐迁移到了基于神经网络的技术上。前一段时间GOOGLE基于神经网络的翻译引起业界的广泛关注。实事上搜狗在这领域也已经取得一定成绩。

搜狗此次发布的实时语音翻译，是把多个模型融合成一个统一的模型，直接把影射文本变成输出文本。相对于传统的模式，准确率可以提升30%－40%。

王砚峰认为，“机器翻译这个行业正在被神经网络重新带来一个质变。”

搜狗知音引擎解决刚需，场景化应用进入实用阶段

人工智能的话题越来越热，但真正转化为应用的还不多。陈伟告诉懂懂，搜狗知音引擎正在努力将技术推向实用。

搜狗知音引擎在8月份发布的语音识别应用，从目前看有三大场景存在较强的使用需求：

第一类是智能汽车的车载场景，搜狗已经有成熟的产品发布。

第二类是智能家居，搜狗与魅族联合开发了机顶盒，遥控器上使用搜狗的语音识别就可以用语音控制电视。此外，搜狗还跟多有电视厂商联合开发的电视解决方案，很快会陆续面市。电视是搜狗进入智能家居的第一步，接下来还将与更多的智能家居厂商合作开发。

第三类就是户外的智能可穿戴设备。比如手表，那么小的屏幕上很难通过触控完成操作，语音则是最方便的方式。搜狗与腾讯在手表上合作开发的超系统，把语音识别、语音合成集成在手表解决方案中，不仅可以语音操作，还可以通过语音完成人机交互。这个解决方案不仅可以应用到手表中，将来可以覆盖一切户外的可穿戴设备。

以上三种刚需，主要是人与机器交互的场景。知音引擎还可以实现人与人的交互，就是这次重点要说的实时语音翻译功能。在神经网络技术的推动下，人与人之间跨语音交互的障碍在渐渐抹平。语言一直是国际性会议的最大障碍，一场会议往往要配不同国家语种的翻译。王小川这次在国际性会议上展示的语音翻译，将来的国际性会议上将来成为常态，语音翻译将替代同传的一部分工作，所有的演讲内容可以同步翻译。

我们都知道，同声传译是翻译工作中挑战最大的一个形式，同传翻译的收入非常高，但他们工作也非常辛苦，同传需要高强度脑力动转，20分钟就会感到疲劳。或许，不久的将来，这个高强度、高收入的职业或许也将逐步被机器翻译慢慢替代。

“近期人工评测中，搜狗机器翻译在演讲、旅游、闲聊、日常口语等领域，采用五分制人工评分能达到4.4分，开始走向实用化。”陈伟告诉懂懂，随着机器学习，这个评分的提升速度也很快。

大数据+深度学习，拉开与竞争对手的距离