配色: 字号:
学界—MICROSOFT 2017会话语音识别系统
2017-11-17 | 阅:  转:  |  分享 
  
学界|MICROSOFT2017会话语音识别系统2017-11-17机器海岸线选自arXiv作者:W.Xiong,L.Wu,F.Alleva,J.Droppo,X.Huang,A.Stolcke等机器海岸线编译参与:方建勇

论文链接:https://arxiv.org/pdf/1708.06073摘要:我们描述了微软的对话式语音识别系统2017版,在这个系统中,我们更新了我们的2016系统,最近在基于神经网络的声学和语言建模方面取得了新的进展,从而进一步提高了交换机语音识别任务的最新技术水平。系统为我们之前合并的一组模型体系结构添加了一个CNN-BLSTM声学模型,并且在重新分类中包括基于字符和对话会话的LSTM语言模型。对于系统组合,我们采用两阶段方法,其中声学模型的子集首先在句音/帧级组合,然后通过混乱网络进行单词级投票。系统组合后,我们还添加了混淆网络重新调整步骤。结果系统在2000交换板评估集上产生5.1%的字错误率。

图1:LACE网络架构。

表1:CNN层结构和参数的比较。

表2:通过Senone集,模型架构和各种帧级组合的声学模型性能,使用N-gramLM。“puhpum”senone集使用一个备用字典与特殊的手机进行填补停顿。

表3:话语范围的LSTM-LM的复杂度。图2:LACE网络架构。

表4:基于会话的LSTM-LM(仅正向)的复杂度和词语错误。最后一行反映了在先前话语中对单词使用1最佳识别输出。

表5:LSTM-LM在选定的组合,系统组合以及混淆网络重新选定的系统上进行重新分级的结果。本文为机器海岸线编译,转载请联系fangjianyong@zuaa.zju.edu.cn获得授权。?------------------------------------------------

献花(0)
+1
(本文系方建勇首藏)