语音识别是什么？

好汉勃士 2020-05-31

展开全文

语音识别的基本概念

语音识别是使程序或系统能够处理人类语音的技术或功能。它也称为语音识别或语音转文本。使用基于计算机硬件和软件的技术来识别和处理人的语音。它主要用于将口语转换为计算机文本。此外，自动语音识别用于通过用户的语音对用户进行身份验证，并根据人类定义的指令执行操作。

现今世界，自从发明第一个录音机以来，语音识别已经走了很长一段路程，自1950年代以来，语音识别工作一直很活跃，但是直到1990年代后期才开始接受自然语音。机器学习（ML）在本世纪提供了大多数语音识别方面的突破。引人入胜的社会是苹果公司的Siri，这是由AI驱动的数字助理，可以将语音识别人性化。苹果公司以这种方式开创了先河，促使竞争对手的公司开始关注并制作自己的版本。从技术角度来看，语音识别历史悠久，有几波重大创新。最近，该领域受益于深度学习和大数据的进步。

语音识别软件中的潜在变量是什么？

言语是一个复杂的现象。人们很少了解它是如何产生和感知的。幼稚的感觉通常是语音是由单词构成的。不幸的是现实是非常不同的，语音是一个动态的过程，没有清晰可辨的部分。获取声音编码器并仔细研究语音记录并聆听它总是很有用的。例如，这是音频编码器中的语音记录。

所有关于语音的现代描述在某种程度上都是概率性的。这意味着单元之间或单词之间没有特定的边界。语音到文本的翻译以及语音的其他应用从来都不是100％正确的。正确性和准确性是两回事，根据信息学课程的讲义，区别在于正确性意味着完全“没有错误”，而准确度意味着“在所有细节上都是正确的”和“能够或成功达到预期目标”。

使用语音识别，这意味着尽管抄写可能不是100％正确，但用户了解了已转录的语音的整体概念。也就是说，这不仅仅是杂乱无章的单词，而且通常可以从文本中解释一个内聚的概念。但是，没有两个人是一样的，因此，必须考虑语音模式和其他偏差。诸如口音之类的异常（甚至是英语口语中的异常）也可能导致语音识别软件错过对话的某些方面。说话者说话的方式、说话的速度，甚至说话者语音音量的波动都可能使语音识别技术陷入困境。

无论如何，大多数现代语音识别技术都可以与机器学习平台一起使用。因此，随着用户继续使用该技术，该软件会获知特定人的语音模式和差异并进行相应调整。

语音识别如何工作？语音识别使用哪种算法？

在当今技术驱动的世界中，一切都基于不同的技术模式。无论是自动文本识别还是机器人语音翻译，技术进步都将标准设定得很高。语音识别通过声学和语言建模使用算法来工作，声学建模表示语音和音频信号的语言单位之间的关系，语言建模将声音与单词序列进行匹配，以帮助区分听起来相似的单词。

声学建模和语言模型是现代统计学为基础的语音识别算法的重要组成部分。隐马尔可夫模型广泛用于许多系统中。语言建模还用于许多其他自然语言处理应用程序中，例如文档分类或统计机器翻译。

语音识别软件的工作原理是将语音记录的音频分解成单独的声音，分析每种声音，使用算法找到最适合该语言的单词，然后将这些声音转录为文本。语音识别软件使用自然语言处理（NLP）和深度学习神经网络。NLP是计算机以一种聪明而有用的方式来分析，理解和从人类语言中获取含义的方法，这意味着该软件将语音分解为可以解释的位，将其转换为数字格式，然后分析内容。根据编程和语音模式进行确定，并对用户实际在说什么做出假设。在确定用户最有可能说了什么之后，该软件将对话记录为文本。例如：Siri使用（语音识别）将说话者的声音转换为文本，然后进行一些处理，然后可以通过使用（从语音到文本的反之亦然版本STT）将其作为声音返回，这是文本到语音的TTS。

所有这些听起来很简单，但是技术的进步意味着这些复杂的过程正以闪电般的速度发生。实际上，机器可以比人类更准确，正确，快速地转录人类语音。

语音识别技术随着人工智能的进步而兴起

随着自然语言和语音准确率的飞跃进步，语音识别技术的进步给企业带来了越来越大的压力，要求其构建超越用户期望的语音体验。人工智能、云计算和大数据的不断改进使语音命令之类的技术以前所未有的速度发展，从而改变了制定客户服务策略的方式。机器学习的重大进步使会话系统能够更好地识别语音本身，并将文本转换为实际语音，这是自然语言处理（NLP）的关键要素。语音数字助手可以通过语音和文本，以类似于人类的速度进行响应，这产生了对完美言语的需求，促使行业向更高级别的智能发展。

AI已经运用多年，诸如Google Maps之类的应用每天都使用语音命令与驾驶员互动。对于企业而言，AI已被广泛采用以削减业务成本，改善客户服务并帮助企业在瞬息万变的格局中竞争。员工可以使用对话式AI节省时间来输入数据，提取报告或执行其他平凡的工作任务。在2019年Gartner CIO调查中，CIO特别将聊天机器人确定为“企业中使用的主要基于AI的应用程序”。如果有的话，这主要表明企业已经开始探索投资语音命令技术和以AI为动力的个人助理带来的好处。

构建特定于领域的自动语音识别模型——对话式AI

随着对话式AI市场的日趋成熟，公司开始开发自己的语音技术来协助推动客户体验策略。正在建立依靠语音命令为客户服务的自治企业的道路。消费者在日常生活中使用语音识别的趋势。

对话式AI是使用自然语言与机器进行通信。对话式AI是一个复杂的系统，集成了多个深度神经网络，这些神经网络必须无缝且一致地工作，才能通过准确，快速且自然的人机交互提供令人愉悦的用户体验。关键的技术点在于如何完成域适配、用户分析、合规性、高精度语音识别、用户标识、情感分析等。

一个典型的会话式AI应用程序使用三个子系统来执行以下步骤：处理和转录音频、理解所问问题、生成响应并正确回复。首先，自动语音识别（ASR）用于处理原始音频信号并从中转录文本；其次，自然语言处理（NLP）用于从转录的文本（ASR输出）中导出含义；最后，语音合成或文本语音转换（TTS）用于从文本人工生成人类语音。

ASR是人工智能领域的重要任务之一，在自然语言中是一项具有挑战性的任务。因为它由一系列工作组成，例如语音分段、声学建模和语言建模，每个步骤都需要构建和使用一个或多个深度学习模型。采用时间分类法（CTC）简化了对分段数据的需求，并并允许对网络进行端到端学习。

语音识别技术的未来

根据Gartner的预测，“到2022年，每天有70％的人将与对话平台进行互动。”简而言之，其背后的语音识别和人工智能只会变得更加复杂。随着设计和技术行业朝着完全包容性发展，随着对用户体验的积极需求，有意识的AI势在必行，以服务于更大范围的人群。为了变得更具包容性，技术人员和科学家已开始改进AI以识别各种口音和方言。最近的研究表明，语音识别“仍然具有明显的性别和地域的偏见”，从而巩固了为不歧视而服务于不同人群的改进需求。即使技术上存在漏洞，科技界仍在尝试通过数字语音助手将AI集成到他们的产品和服务中。受技术影响最大的行业之一是娱乐，增强虚拟现实游戏如雨后春笋般出现。语音控制视频游戏中的虚拟现实和生物反馈也越来越流行。

人有优点也有缺点，正在演进的AI系统将具有优势和劣势。因此，最大的影响将来自于找出使人和计算机良好协作的最佳方法。随着业务模型的不断发展，将AI正确地集成到产品和服务中将需要耐心和道德上的最佳实践。

以上是我的浅薄之见，欢迎指正，谢谢！