带你弄懂语音识别的技术原理

山峰云绕 2023-02-15 发布于贵州

展开全文

https://www.toutiao.com/article/7184303184092152353/?log_from=91177193e59c5_1676441606098
语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的技术。
语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

语音识别发展史：

我们先来看一下语音识别的发展史1952年，贝尔研究所研究成功了世界上第一个能识别10个英文数字发音的试验系统；1970年以后，在小词汇和孤立词的识别方面取得了实质性进展；1980年以后，孤立词转向连续词识别；1987年12月，李开复开发出世界上第一个“非特定人连续语音识别系统”，用统计方法提升了语音识别率；1990年以后，大词汇量连续语音识别得到优化；1997年，IBM Viavoice首个语音听写产品问世；2010年，Google Voive Action支持语音操作与搜索；2011年初，微软的DNN在语音搜索任务上取得成功，DNN首次成功应用到中文语音识别领域；2011年10月，苹果iPhone 4S自带的语音助手Siri一炮走红；2013年，Google发布Google Glass，苹果发布iWatch都嵌入语音交互功能；

语音识别现状：

语音识别的难点：

语音识别任务的难点：地域性；场景性；生理性。
鸡尾酒会问题。
一句话总结语音识别的难点就是不确定性很强。同一个词、同一句话受到不同因素的影响可能发音完全不同。
地域性：一个四川人说“我爱你”，湖南人说“我爱你”，江西人说“我爱你”，同一句话，是不是发音不同，有的甚至完全不一样。这就是地域性对语音识别带来的困难。
场景性：再考虑一下我们在不同的场合说相同的一句话，是不是会根据不同的场合、面对不同的人，语音语调会有不同？还有就是在我们心情好时说一句话和心情坏时说一句话，是不是也会存在这个问题。这就是场景性和情绪性带来的问题。
生理性：还有一个影响最大的，就是每个人的音色和发音习惯不同，也会导致同一个词设置同一个声母、韵母，不同的人产生的声波是不一样的。

语音识别任务分类 - 孤立词识别：

孤立词识别：语音处理发展前期是对少量的孤立词进行识别：输入的语音文件是只包含一个单词的文件（整句语音输入后进行切分），之后通过模型去识别该文件是属于哪个单词，常用的模型有GMM-HMM（对每个词进行建模）。

语音识别任务分类 - 连续词识别：

连续词识别：在实际中少量孤立词识别不能满足实际的应用需求，大部分的需求需要对连续的一句话进行识别，那么如果还是用少量孤立词识别算法的话存在问题：需要切分整个文件到孤立词，这个对于人工需求很大，且不能保证准确性，因为很多词之间的发音是有粘连的。即便是完美切分开了，但是我们实际使用中需要使用到的单词量非常大，孤立词识别所使用的匹配策略在此处没有任何的优势，甚至由于词汇量太大而变成劣势。