分享

带你弄懂语音识别的技术原理

 山峰云绕 2023-02-15 发布于贵州

  • https://www.toutiao.com/article/7184303184092152353/?log_from=91177193e59c5_1676441606098


  • 语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的技术。
  • 语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

语音识别发展史:

  • 我们先来看一下语音识别的发展史1952年,贝尔研究所研究成功了世界上第一个能识别10个英文数字发音的试验系统;1970年以后,在小词汇和孤立词的识别方面取得了实质性进展;1980年以后,孤立词转向连续词识别;1987年12月,李开复开发出世界上第一个“非特定人连续语音识别系统”,用统计方法提升了语音识别率;1990年以后,大词汇量连续语音识别得到优化;1997年,IBM Viavoice首个语音听写产品问世;2010年,Google Voive Action支持语音操作与搜索;2011年初,微软的DNN在语音搜索任务上取得成功,DNN首次成功应用到中文语音识别领域;2011年10月,苹果iPhone 4S自带的语音助手Siri一炮走红;2013年,Google发布Google Glass,苹果发布iWatch都嵌入语音交互功能;

语音识别现状:

  • 语音识别属于人工智能中的感知智能,其应用已经进入家电、通信、汽车、医疗、家庭服务等各个领域。如:语音助手、机器人和智能音箱等。
  • 目前,某些公司的语音识别在标准数据集或安静的近场环境下识别率已经达到了97%,但是在真实场景下的识别率还远远达不到的期望水平。

语音识别的难点:

  • 语音识别任务的难点:地域性;场景性;生理性。
  • 鸡尾酒会问题。
  • 一句话总结语音识别的难点就是不确定性很强。同一个词、同一句话受到不同因素的影响可能发音完全不同。
  • 地域性:一个四川人说“我爱你”,湖南人说“我爱你”,江西人说“我爱你”,同一句话,是不是发音不同,有的甚至完全不一样。这就是地域性对语音识别带来的困难。
  • 场景性:再考虑一下我们在不同的场合说相同的一句话,是不是会根据不同的场合、面对不同的人,语音语调会有不同?还有就是在我们心情好时说一句话和心情坏时说一句话,是不是也会存在这个问题。这就是场景性和情绪性带来的问题。
  • 生理性:还有一个影响最大的,就是每个人的音色和发音习惯不同,也会导致同一个词设置同一个声母、韵母,不同的人产生的声波是不一样的。

语音识别任务分类 - 孤立词识别:

  • 孤立词识别:语音处理发展前期是对少量的孤立词进行识别:输入的语音文件是只包含一个单词的文件(整句语音输入后进行切分),之后通过模型去识别该文件是属于哪个单词,常用的模型有GMM-HMM(对每个词进行建模)。

语音识别任务分类 - 连续词识别:

  • 连续词识别:在实际中少量孤立词识别不能满足实际的应用需求,大部分的需求需要对连续的一句话进行识别,那么如果还是用少量孤立词识别算法的话存在问题:需要切分整个文件到孤立词,这个对于人工需求很大,且不能保证准确性,因为很多词之间的发音是有粘连的。即便是完美切分开了,但是我们实际使用中需要使用到的单词量非常大,孤立词识别所使用的匹配策略在此处没有任何的优势,甚至由于词汇量太大而变成劣势。

传统语音识别任务处理流程:

语音识别算法:

  • 传统语音识别算法:GMM-HMM。
  • 基于深度学习的语音识别算法的种类非常多,新的模型和算法也不断被提出。纵观这些模型算法,大致可以分为两个大方向。混合模型,也称为hybrid模型端到端模型,也称为end2end模型

语音识别应用:

  • 语音识别的应用有很多,比如日常使用APP时,使用语音进行交互,操作功能;在智能家居中,使用语音控制家电的状态而不需要使用遥控器等等。
  • 语音打字机;语音搜索;语音助手;智能音箱;客服机器人;

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多