分享

音频处理基础(二)

 人生好比斗地主 2022-04-13

一、音频信号的数字化

声波在时间和幅度上都是连续的,是一种模拟信号。要到计算机里面能够处理它,就必须要把它转换成二进制的“0”和“1”,这个过程叫数字化过程。数字化过程,就是采样、量化和编码的过程。

(1)采样:声音信号在时间上的离散化。即每隔一定时间抽取一个信号样本。采极频率,就是每秒采样的次数。

奈奎斯特理论:采样频率不低于声音信号最高频率的两倍,这样就能把数字声音还原成原来的声音,称为无损数字化。

语音的最高频率约为3KHz,放大一点,到3.4KHz,。如果放大两倍就是6.8KHz,再放大一点,就是电话采样的频率,定在8KHz。人的耳朵能够感知到的音频的最高频率为20kHz, CD音质的采样频率为44.1kHz;

(2)量化:声音信号在幅度上的离散化。采样过程中对每一个采样点的幅度值用数字量来表示。

采样精度:即量化的位数,8位可以将幅度分成256等份,位数越多量化等级数也越多,所能表示的声波幅度的动态范围也越大,当然需要的存储空间也越大。如果幅度的划分是等间隔的,则称为线性量化,否则为非线性量化。上图比被分成八个刻度,是等分的线性量化。而在实际的一些算法中都是采用非线性量化。这是因为我们声音的幅度,绝大部分的波形,它的幅度都不是很高,但是突然会有一个声音可能很响,这个波形它的幅度就会比较大。如果我们采用这样的等分间隔,就不能把这个绝大多数的较低的这些波形更好的把它们表示出来。相反波形比较高的这一部分它很少,它就浪费了这个量化的位数。不能更好的把这个波形更精确的表示出来。所在在实际当中,可以采取这样一种方式,就是幅度低的这一部分,把它的量化的位数增加,也就是把它的间隔缩得更短,而对于这个幅度比较高的波形,我们把它的量化的位数减少,把它的间隔拉大一些。这样就能充分的利用量化的位数。把这个波形更精确的表示出来。

(3)编码。

脉冲编码调制法(PCM) :: 用二进制来表示每一个有固定电平的量化值。写成二进制的过程就可以理解为编码的过程。

如何计算数字化音频的数据量?  数据量=采样频率*采样精度*采样时间*声道数/8 就得到字节数。

例2.1计算1分钟未压缩的高保真立体声数字声音数据的大小。

60*( 44100*16*2)/8=10.09 MB    一分钟等于60秒,高保真立体声就说明它是CD音质,采样频率是44100Hz,它的量化的位数要达到16位,它是立体声有两个声道,那就要乘以2,再除以8,才能获得字节数。那这样算出来的话,一分钟要10.09MB,所以一首歌曲,录制的时间大约在四分钟左右的,不压综就需要40MB左右。一个容量为4GB的MP3播放器可存放100首这样的歌曲。而我们现在听的歌曲,一首歌它的长度大约是在4MB左右,所以它的压综就能达到10倍左右。

二、数字音频压缩标准

(1)电话质量的语音压缩标准。G.711, G. 721,G.723,G. 729等,采样频率: 8kHz, 量化位数: 8位

(2)调幅广播语音压缩标准:G.722:第一个宽带语音编码算法,采样频率: 16kHz

(3)宽带音频压缩标准:MPEG-1的音频,第一个高保真立体声音频压缩国际标准,提供三个独立的压缩层次,mp3则采用了其中第三层的标准。

三、常见的音频文件

WAV文件:波形文件,文件大,适合存储简短的声音片段和旁白。

MP3文件:是MPEG音频第3层的简称,有损压缩,压缩比达12:1.

RA文件: Real Media音频部分, 采用流式传输,适合在线聆听。

WMA文件:微软推出的流式音频格式。

AC3文件:又叫杜比数码环绕立体声,提供5个全频域声道和1个超低音声道,称为5. 1声道,一般作为DVD的伴音。

AIFF (音频交换文件格式): Apple公司开发,被Macintosh平台 及其应用程序所支持。

FLAC文件:无损压缩,源码开放,支持所有操作系统平台。

AMR文件:移动通信中广泛使用的语音标准,用于保存手机录音.

三、智能语音处理技术

(1)语音识别技术:语音识别就是让计算机能够听懂人说话。

Windows的语音识别:操作系统自带的语音识别。Windows 7能上版本都带有这个功能。打开Windows 轻松使用, 就能找到。打开后弹出:

欢迎使用语音识别

仅使用语音,便可以启动程序、打开菜单、单击屏幕上的按钮和其他对象、将文本口述到文档中以及书写和发送电子邮件。只要是可以用健盘和鼠标完成的所有事情,都可以仅用语音来完成。

首先,将此计算机设为识别语音,

注意:完成此设置向导后,便能够通过语音控制计算机。设置成功后会有一个小的窗口浮动在桌面上,默认它就进入到一个聆听的状态。这个时候我们只要把麦克风准备好了,就对着这个麦克风说话,它就能够开始听。

(2)语音合成技术。语音合成,使计算机具有类似人的说话能力。语音合成分三个层次,从文字到语音,从概念到语音,从意向到语音。我们现在能够使用的基本上是文字到语音。

语音合成的特点,标准清晰,但缺少感情色彩。语音合成的应用,主要在文语转换,语音杳询。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多