在2021年国际口语机器翻译评测比赛(简称IWSLT)中,科大讯飞与中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)联合团队在同声传译任务中包揽三个赛道的冠军! 这到底有多“牛”? 说个背景简单科普一下: IWSLT作为国际上最具影响力的口语机器翻译评测比赛,已经举办了18年,每年都会有不同的语音翻译类比赛任务。 在今年,IWSLT共设置了4类任务,其中包括同传任务,为考察不同语言对语序的影响以及语音同声传译整体性能,在本次同声传译任务中设置了三个赛道:
并通过“翻译质量”和“翻译延迟”两个维度来进行评测,以下是英德文本同传比赛结果: ▲英德文本同传的结果截图 UEDIN:英国爱丁堡大学 USTC-NESLIP:科大讯飞-中科大联合团队 APPTEK:AppTek(德国) VOLCTRANS:字节跳动火山翻译团队 讯飞在低中高三个延迟区间上都显著优于其他系统(注意图中红色小星星的位置),并拿下了全部赛道的冠军!尤其是低延迟环境下的进展,将进一步推动机器同传的商业落地。 ▲左右滑动查看成绩截图 依次为:英德文本同传效果排名、英日文本同传效果排名、英德语音同传效果排名 我们是怎么做到的? 一个关键原因是,我们创新性地提出了Cross Attention Augmented Transducer(CAAT)同传架构,基于这一框架实现,可以更好地实现翻译效果和延迟的平衡,其模型结构如下: 针对同传任务中翻译质量和延迟这两个评价目标,借鉴语音识别中针对多路径的优化方式,实现了将动态决策和翻译效果进行联合优化,从而在延迟-翻译质量之间找到了更好的平衡。 怎么理解这句话呢?
“你好,他问一下火车站在哪儿?” 当机器去听这句话的时候,这些是逐词输入到机器的“脑袋”里的,在输入的过程中,机器就需要根据自己的模型和策略来做翻译决策。 目前经典的机器翻译技术,翻译策略通常是固定出现N个词之后开始翻译。 例如固定词数量是2个,机器在读到第二个词“他”时,输出第一个词“你好,”的翻译结果,即输出“Hello”;接下来每次读一个词,输出一个词,读入“问”,然后输出“he”,依次类推。当机器看完源端信息时,会把所有结果一次性输出。这种策略针对同传的两个指标是选择固定延迟,优化翻译效果,比较机械,很容易造成直译或预测错误问题,尤其是在低延迟的时候。 而我们的CAAT模型则会根据输入和语语义综合进行分析,当出现“你好”的时候,能够自主分析“你好”是一个相对完整的语义,不论后面接什么单词,它的翻译通常是固定的,则立刻做出决策先翻译出“Hello”,与此同时,它还会根据语义进行自主调序,使得翻译出来的语言能够更地道。 相比目前主流的机器翻译技术,CAAT避免了固定延迟导致的延迟过大或翻译质量下降的问题,在相同延迟下取得翻译质量的显著提升。 除了这一模型结构的创新外,针对任务中语音翻译数据量有限这一问题,我们还从模型融合、数据增强等策略上进行了优化。 总之,经过我们的创新和努力,在寻找到延迟和翻译质量之间更好的平衡点上,我们做到了第一! 我们的技术用在了哪里?
在正反两面屏幕的加持下,可呈现出同传级的实时翻译效果,人们在保持社交距离的同时,还能顺畅地对谈交流。特别是创新研发了会话翻译、录音翻译、演讲翻译、同声字幕等功能,可与手电脑、大屏(电视、投影、会场LED等)实现翻译联动,帮助用户在跨语言汇报工作、提案演讲、远程开会时提供实时语音翻译或同传翻译字幕。 ![]()
它目前已经可以支持中、英、日、韩、法、西、俄、阿8国语种的实时转写,以及中文到英、日、韩、法、西、俄、德、阿拉伯等国语种的翻译。通过客户端在会议现场或在线会议实现语音实时识别、翻译,内容记录,并将识别和翻译内容形成字幕,实时投屏展示。是一款能够广泛应用于大型高端会议、发布会、展览会等场景的软件产品。 ▲讯飞听见同传为WAIC2021提供转写翻译服务 截至目前,讯飞听见同传已服务大会10000 场次,讯飞听见网站及APP为近1500万用户提供智能转写及翻译服务,累计转写时长超3866万小时。 尽管如此,机器同传相比与人工同传来说,有我们不可回避的问题: 机器翻译很容易出现“直译”问题。同时,在语义理解和核心内容的传达上,机器翻译更容易出现识别和翻译错误等问题。 站在包揽IWSLT 2021语音同传任务的三个赛道冠军的基石上,我们将以本次技术突破为全新的起点,进一步提升科大讯飞在语音翻译和机器同传领域的核心竞争力! 为讯飞技术点赞! |
|