分享

这件牛逼的小事儿叫“翻译”

 浅黑科技 2020-06-11


这件牛逼的小事儿叫“翻译”

文 | 史中

我算见识了,普林斯顿大学的高材生的智商和中国骗子之间相差了十个王林。

事情是这样滴。

上个月,有人给中哥介绍了一位歪果仁盆友,他是美国人,普林斯顿大学数学系的高材生。放暑假决定来中国学学中文,想在我家借宿一个月。

卧槽,普林斯顿,这可是全美第一的大学啊,出过两位美国总统,63位诺贝尔奖得主,计算机之父阿兰图灵、物理大神费曼等等等等都是普林斯顿大学的校友。。。

作为一个科普界的名流,中哥欣然应允借宿请求,准备在每个空虚的夜晚向他讨教一点科学姿势。

My body is READY!

这张是莱昂纳德,不是Ben

只是为了表达我的心情

对了,他的名字叫 Ben。

事实证明,在中国人的套路面前,再聪明的高材生也得变“Ben”。

那天,Ben 晚上八点多才回到家,一进门就愁眉苦脸,欲说还休。他刚学中文,也就是小学一年级水平,在我的逼问下,夹杂着英语连说带比划,我才明白发生了什么。。。

原来,他去天安门附近转悠,遇到一个长发垂肩的女纸。女纸说自己特别稀罕歪果仁,约定了过两天一起去宾馆学汉语。相谈甚欢,决定共进晚餐。女纸带他走进了天安门西边的一条小胡同的咖啡馆儿,开了一瓶红酒,点了两个牛排。结账的时候,3000。

Ben 说,你不是坑我吧。女纸说,怎么是坑你?这样,我替你付1500,剩下一半你来,于是扔下1500 甩手走了,剩下长得颇似龙哥的餐馆老板站在他旁边。

MD!中哥听完他的遭遇,正义感爆棚,于是决定带他去报案!

开车的是中哥

后面坐着 Ben

犯过案的浅友都应该知道,报案要到案发地派出所,于是中哥夜奔天安门。到了派出所,警察叔叔要 Ben 大概描述一下案件过程。

中哥的英语水平你懂的,看日本电影不用字幕(通常也没字幕),看美国电影一般都得盯着字幕才能懂,现在让我翻译一场惊心动魄的美女诈骗案,臣妾还做不到。不过咱是科技人儿啊!浅友们应该有很多用过“翻译君”吧。对,我当时就掏出手机打开了翻译君,Ben 一边陈述案情,我一边结合着翻译君的同声传译,一边给警察讲。

讲个八九不离十,警察叔叔说行了,不用说了,上警车吧我带你们去。

于是,我们一行人回到了餐馆,此时已经关门了。

神奇的事情发生了。。。警察叔叔抄起电话,直接给酒吧老板拨了过去:你是XXX吗?有人报案了!你过来处理一下吧!

没有十分钟,老板就开着一辆大摩托过来了。更骚的操作来了,他直接从兜里掏出一沓钱,问 Ben,你想要回去多少?开个价。警察叔叔就这样站在旁边慈祥地看着我们,一言不发。。。

从左到右,分别是我,Ben,不重要的路人,饭馆老板

刚学中文的 Ben 此刻完全不具备用中文吵架的能力,我拿着手机各种翻译,具体过程不说了。最终,老板坚称他们开的红酒特别贵,不能退全款。在警察叔叔的沉默下,我们只要回了1000块。为了防止老板给假钱,中哥专门把钱铺在地上,拍下了号码。。。

(事后证明这是真钱,老板挺实诚,错怪他了,嗯。)

曝光一下老板的车牌号吧,浅友们来北京注意一定不要被坑,中哥救不过来。。。

事情就这样结束了。中哥的心中却久久不能平静。

别误会,什么依法治国啊,警匪勾结啊,作为科普大佬,中哥可想不明白。我想的是:当时翻译君给翻译的那段案情陈述,还真 TMD 准啊。。。

欧对了,翻译君有人没用过吗?简单介绍一句,就是腾讯做的,你这边说话,它直接给你翻译成英文的贼鸡儿好使的免费 App。最近翻译君还出了一个高配版,叫做“腾讯同传”。前两天新闻里报道的,给博鳌亚洲论坛各国领导人做现场同声传译的翻译机器人,就是“腾讯同传”。

浅友知道,前两天中哥去了一趟“智博会”。(参见中哥上一篇文章《一个有关未来十年的预言》,点击可以打开复习)在“智博会”上,我也看到腾讯在现场演示了“腾讯同传”。我突然发现,最近“翻译君”和“腾讯同传”在我的生活里曝光量好高啊。

这是智博会现场的“翻译君”

于是你懂的,万能的中哥决定找到翻译君和腾讯同传的负责人聊聊~~

零、“翻译君”

就是这位,边超老湿傅。

边超 翻译君“本尊”

一听到超哥的自我介绍,当时我就震精了。。。

他是某人口大省的高考第一名,清华大学计算机系博士,06 年毕业之后,先是入职 Intel,帮助他们优化 CPU 架构,你的电脑从单核到多核的升级,背后就有超哥的功劳;08年入职微软,帮助他们优化 Windows 性能。当年从慢的要死的 Vista,升级到健步如飞的 Win7,其中还是有超哥的功劳。

11年入职腾讯之后,他一直带领兄弟们负责 QQ浏览器内核的优化。

作为 Intel、Windows、QQ浏览器和翻译君的四料用户,当中哥发现原来他们的幕后大佬竟然是一个人的时候,顿时有种跪着采访的冲动。。。

超哥总结自己开挂的人生,说了一句话:你看到世界在一往无前地进步,其实背后根本的动力都是底层算法一点一滴的优化。

我突然回忆起去年的往事,当时我下载了猎豹浏览器、360浏览器和QQ浏览器,同时打开同一个网页,看谁最快。这样实验多次,最终选定了以毫秒级速度优势胜出的QQ浏览器。再看看眼前的超哥,我一瞬间就感受到了他所说的“一点一滴的优化”背后那种让人着迷的匠人精神。

废话不多说了,赶快听超哥讲翻译君和腾讯同传的往事~

一、这么叼的翻译是咋搞出来的?

腾讯有一个很变态的文化,那就是特别鼓励有技术的老湿傅搞内部创业。(其实当年微信的诞生,也差不多是这样的剧情。)

2016年,超哥决定响应号召,只生一个好 内部创业。那时他发现身边的盆友一到假期就出国游,觉得既然中国在国际上地位越来越叼,出境游的人肯定越来越多啊,为何不搞一个“一说话就能自动翻译”的软件呢?

翻译君就这样诞生惹。

机器翻译,核心技术就是一个——人工智能。就在超哥和团队启动翻译君项目一个月之后,阿法狗大战李世石,几场围棋赛让“人工智能”这个词火得一塌糊涂。翻译君也借着这股热潮,得到了吃瓜群众别样的关注。

本对话由翻译君翻译。。。

二、机器人翻译的“三驾马车”

超哥说起话来,跟 CPU 运行一样有条理,他觉得做机器翻译,跟把大象装冰箱一样,主要分三步。

第一步,搞定 AI 数据

第二步,搞定 AI 算法

第三步,搞定 AI 工程

超哥也把自己翻译君的 AI 团队分成了这么三组,每组六七个人,精兵强将,分工协作。

1)先说 AI 数据

机器翻译的目标,就是让机器学会人的翻译技能。那么第一步,显然先要找来人类的优秀翻译成果作参考。

AI 数据团队的第一个任务,就是从全世界搜罗“双语平行句对”——一条中文,一条英文的对应材料。

你仔细想想,这样的句对还挺不好找呢。

超哥举了几个栗子:

某些网站有中文版和英文版,这种情况下可以把他们对应的词条部位抽取出来作为句对;

有些新闻网站,比如 ChinaDaily,也有同一篇文章的中文版和英文版。这也可以薅过来作为句对。

还有一些业内其他人做好的,在历届翻译大赛上,专门用来训练翻译机器人的现成句对。(这类数据数量比较少,大概1000w条左右。)

就这样一点点发掘一点点死磕,数据团队总共找来了一亿多条句对。

你以为到这为止,数据团队的任务就完成了么?图样图森破。

这是一个正确的句对

AI 数据团队的第二个任务,是数据的筛选。

仔细想想,这样广撒网搜罗来的一亿多条句对,肯定里面有很多模糊、错误、驴唇不对马嘴的情况。

如果把这样的数据直接拿给人工智能去学习,学出来的多半是屎一样的妖艳贱货。

然而尴尬的是:如果靠人去逐个检查一亿条数据的准确性,恐怕100年你都看不到翻译君问世。

于是,团队先花了几个月功夫做一个人工智能系统,专门用来筛除错误的数据。

超哥举了几个简单的例子:

一句三行的英文句子,对应的中文只有五个词。那显然不对嘛。。。

再比如,这边是一句中文,那边的翻译出现了德文单词,这也显然是不对的嘛。。。

当然,真正的筛查系统比这个要复杂得多。这里只是感受一下它的工基本作原理。

不仅如此,他们还仿照富士康生产线抽检 iPhone 的方式,对“句对质量”进行抽检。搞个翻译,连工程质量管理的知识都用得到。。。

这是一个错误的句对。。。

AI 数据团队的第三个任务,是“分词”。

英文每个词之间都有空格,但中文很坑爹,所有的词都是粘在一起的。

所以,“分词”就是用人工智能的方法,把一句话切成一个一个的单词。

汉语分词这个事情,听上去简单,但真的仔细研究它,可是一道送命题。随便举两个例子:“我的/头像/牛逼/吗?”和“我的/头/像/牛逼/吗?”完全 TMD 是两个意思。“我的/金箍棒/在哪?”和“我的/金箍/棒在哪?”也完全 TMD 是两个意思。

总之,超哥带着队伍研究了一个叫灵格(Lingo)的分词神器,一点点解决了分词的问题。

说了这么多,一个翻译系统的“学习资料”才算是“洗净备用”,大概 Ready 了。

失之毫厘

谬之千里

2)再说 AI 算法

AI 算法团队的职责,和你想得差不多,就是不断研究最新的人工智能技术,寻找到更适合做机器翻译的算法,然后提供给 AI 工程团队做弹药。

他们的日常就是不断看那些天书一样的论文,不断调试天书一样的算法。偶尔吃个饭,睡个觉,特别偶尔站起来走两圈。

3)再说 AI 工程

就像一款发动机,只有设计图纸是不够的,还要有人把它加工出来。

同样,建造一个机器翻译系统,只有 AI 算法是不够的,还需要一个 AI 工程团队,把那些算法布置到人工智能系统里。

AI 工程团队的职责非常重要。因为,同样算法布置在系统里姿势的微小区别,都可能造成系统消耗算力和时间的巨大不同。就像在发动机的设计中,一个部件尺寸差一毫米,就可能让油耗翻一倍。

每天用户请求翻译君翻译的语句是五亿句,计算量是惊人的。这种情况下,AI 工程偏差一点儿,就可能就会浪费天文数字的成本,你说他们手抖不抖?

终于。。。。把“AI 数据”放到“AI 算法”和“AI工程”加持的人工智能训练系统里,一套“翻译引擎”就造好啦!新技能get

刚才忘记说了,翻译君的团队里,除了超哥这个清华的博士,还有 MIT 的博士、早稻田的博士。简直是黄金战队。就算是这样的豪华阵容,翻译君2016年初开始写第一行代码,2016年底发布,从0到1,还是耗费了团队将近一年的时间。这套系统之复杂,可见一斑。

功夫不负有心人。好东西自己会说话。整个2017年,用户就像海啸一样涌来,直接把翻译君冲到各大应用商店的榜首。中哥也是在那个时候把翻译君作为自己手机里的常驻软件的。

我猜,之所以超哥把AI 数据团队、AI 算法团队、AI 工程团队叫做“三驾马车”,是因为从成立到今天,这三个团队一直在“马不停蹄”的地工作。

AI 数据团队每天都在寻找新的高质量的“句对”,想办法剔除质量差的“句对”;

AI 算法团队每天都在寻找新的算法,一言不合就把翻译系统升级一遍;

AI 工程团队每天都在优化算法的部署,一点一滴地提高翻译精度,降低错误率。

其实,团队里这帮博士都明白,人工智能一旦停止迭代,分分钟就会变成人工智障。所以,没日没夜地改进系统,只是 AI 工程师的日常操作而已。

好奇怪,听说翻译君团队的人这么拼,中哥有一种“那我就放心了”的感觉。。。

三、翻译君出街去打工了

2017年,翻译君搞得风生水起,经常有公司老板找到超哥,问:你们的翻译君这么好使,能不能帮我们做一场大会的同声传译呢?不让你们白忙,我给钱好不好?

超哥一看,这不错啊!让翻译君出去打打短工,还能挣点饭钱回来。

没想到,效果还不错,越来越多人来请翻译君“出台”。超哥突然意识到,翻译君就像自己的小孩,现在他长大了,可以自己赚钱啦!于是团队给翻译君穿好西装打好领带,定制开发了一番,摇身一变成为了“腾讯同传”,专门为企业进行翻译服务。

2018年初,有一个偶然机会摆在超哥团队面前:

博鳌亚洲论坛可以上机器同声传译,腾讯同传要不要接这个活儿?

卧槽,博鳌论坛,这可是个大场面。

超哥其实有点担心,因为他知道,机器同传有这么几怕:

首先,怕现场嘈杂。如果麦克风收进来的声音就不清楚,肯定特别影响翻译质量。

其次,怕交谈场景。在圆桌论坛的场景,一位领导正讲中文,说了一半忽然被旁边的嘉宾用英文抢了话,现场人类观众可以瞬间切换,但是机器不容易转过弯来。

再次,怕说“片汤话”。人在日常讲话的时候,经常会说“这个那个然后嗯啊额喔”这样的语气词,这些语气词会让翻译君感到莫名鸭力。。。

其实,在2018年初,超哥团队已经研究出几个方案来对付这几“怕”了,只是需要点时间来做系统升级。但时间不等人,此时此刻,要么就用现成的系统硬着头皮上,要么就永远错失这次机会。

超哥那晚上辗转反侧,第二天还是咬着牙跟同事说:博鳌的事儿,我们接了!即使在全国面前丢人我们也认!

于是,刚刚诞生的腾讯同传就拉开阵势,为博鳌论坛搞了一次人类历史上规格最高的机器同传。

博鳌亚洲论坛现场

那几天,估计很多浅友也看到了新闻报道。人们惊奇地发现,居然博鳌论坛有了人工智能的翻译。不过,由于现场情况过于复杂,实际中语言交替出场,还有口语语气词频繁出现,现场同传也确实出现了一些失误。

当时还有人传言,腾讯翻译错误多,紧急调用了人工同传。

我一脸坏笑地专门跟超哥核实了这件事。

超哥却很淡定:“并没有,有些分论坛本来就是人工翻译的。而腾讯翻译负责的论坛,从头到尾都是机器顶下来的。我们搞技术的,哪能怕出错,错误才能让我们进步啊!”

这个答案很朴实。

从博鳌论坛到现在过去了四个月,“腾讯同传”已经克服了不少之前的“坑”,变得更强大了。

超哥举了个例子:

现场演讲者不是有很多语气词吗?我们就专门找来很多演讲视频,一点点研究语气词的规律,训练出一套专门负责去掉语气词的系统。把这套系统放在翻译系统之前。就可以完美解决演讲者的“口语化”问题。

如果不去掉口语,就是这效果

像这样的改进还有很多。

再举个例子:

在翻译君里,人们通常一句话一句话地说完才让机器翻译。但是在同声传译中,一个人会一直叨逼叨地说,还抑扬顿挫地忽快忽慢。所以,机器要学会判断在什么地方“断句”。

为了解决这件事,这帮技术宅们还专门开发了一套断句系统,用大数据的方法,八九不离十地“猜”出发言者在哪里断句。

再举个例子:

腾讯同传在做翻译之前,实际上还有一个步骤,那就是先把人的语音转录成文字。这个步骤是微信团队的“微信智聆”系统负责的。虽然“微信智聆”的转录已经是市面上最好的方案,但是仍然免不了有一定的错误率。

于是,超哥就带着兄弟们改进算法,让语音转录文字发生错误的时候,还能翻译成对的英文。

事实证明,超哥勇敢地接下博鳌亚洲论坛的任务,这招险棋走对了。腾讯同传彻底地火了一把。

很多需要同声传译的公司都觉得,这可是“博鳌亚洲论坛官方认证机器翻译系统”,如果用在我司,那不是既实用又有面儿吗?

于是,有些公司想把腾讯同传布置在自己的视频会议系统里,和海外的客户双语开会;

有些公司想要在商业谈判的时候,用腾讯同传方便沟通。

还有一些医疗、教育类的专业公司,让腾讯帮忙开发了“医疗专业同传”“法律专业同传”“游戏专业同传”,在开行业会议的时候,可以精准同传。

说到自己用“绳命”研发的翻译系统被布置到越来越多的企业里,不苟言笑的超哥露出了一秒微笑。我刚想举起手机记录下这一刻,他马上就回复了冷静的表情。。。

中哥亲测翻译君

(友情提示:点开看“大”图)

四、闪耀的王冠

我问超哥:机器翻译和人类翻译,最终到底谁会战胜谁?

超哥反问:“汽车和走路哪个更快?”

我正在懵逼,他慢悠悠地解释道:

如果在高速公路上,汽车肯定秒杀人;但在傍晚六点的北三环,汽车真不一定能赢得了人。。。

评价哪个东西更好,首先你需要一个标准答案。

语言,是人类一切情感的出入口,它们忽而炙热,忽而温婉,忽而含情脉脉,忽而热泪盈眶。面对我们人性的美丽和哀愁,翻译,似乎永远没有标准答案。

“那我们为什么要不惜一切研究机器翻译呢?”我问。

至此,超哥说出了那句震撼人心的话:

我们从来不是为了证明机器比人翻译得更好;

我们只是为了证明,平等、廉价地与他人沟通,是每个人应得的权力。

我突然感受到一种坚实的美好。

我看到,眼前的生活一往无前地进步。而背后,无数中国最聪明的技术宅们,正在一粒沙一粒沙地聚沙成塔,为他们心中那个更好的世界添砖加瓦。

那天,我其实想对超哥说,你曾经帮一位美国盆友找回了 1500 块钱,但一直没好意思说出口。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多