学界—MICROSOFT 2017会话语音识别系统

来自：方建勇 > 馆藏分类

配色：

字号：大中小

2017-11-17 | 阅：转： | 分享

学界|MICROSOFT2017会话语音识别系统2017-11-17机器海岸线选自arXiv作者：W.Xiong,L.Wu,F.Alleva,J.Droppo,X.Huang,A.Stolcke等机器海岸线编译参与：方建勇

论文链接：https://arxiv.org/pdf/1708.06073摘要：我们描述了微软的对话式语音识别系统2017版，在这个系统中，我们更新了我们的2016系统，最近在基于神经网络的声学和语言建模方面取得了新的进展，从而进一步提高了交换机语音识别任务的最新技术水平。系统为我们之前合并的一组模型体系结构添加了一个CNN-BLSTM声学模型，并且在重新分类中包括基于字符和对话会话的LSTM语言模型。对于系统组合，我们采用两阶段方法，其中声学模型的子集首先在句音/帧级组合，然后通过混乱网络进行单词级投票。系统组合后，我们还添加了混淆网络重新调整步骤。结果系统在2000交换板评估集上产生5.1％的字错误率。

图1：LACE网络架构。

表1：CNN层结构和参数的比较。

表2：通过Senone集，模型架构和各种帧级组合的声学模型性能，使用N-gramLM。“puhpum”senone集使用一个备用字典与特殊的手机进行填补停顿。

表3：话语范围的LSTM-LM的复杂度。图2：LACE网络架构。

表4：基于会话的LSTM-LM（仅正向）的复杂度和词语错误。最后一行反映了在先前话语中对单词使用1最佳识别输出。

表5：LSTM-LM在选定的组合，系统组合以及混淆网络重新选定的系统上进行重新分级的结果。本文为机器海岸线编译，转载请联系fangjianyong@zuaa.zju.edu.cn获得授权。?------------------------------------------------

献花(0)

(本文系方建勇首藏)

类似文章 更多

发表评论：