我的图书馆

教技1201张春燕 2014-11-05

展开全文

掩蔽效应编辑

同步掩蔽（英文名称： Masking Effects，也称为声响掩蔽），要描述同步掩蔽效应，最好是通过一个类比。想象一只在太阳前面飞翔的小鸟。你看到小鸟从左边飞到你和太阳之间，然后小鸟消失，因为太阳光线的亮度太高。当小鸟移出太阳区域，你就又能看到它了。就像在一个安静的环境中，吉他手的手指轻轻滑过琴弦的响声都能听到，但如果同样的响声在一个正在播放摇滚乐曲的环境中，一般人就听不到了。

中文名

同步掩蔽

外文名

Masking Effects

别名

声响掩蔽

1简介编辑

一个声音的闻阈值由于另一个声音的出现而提高的效应。后者称为掩蔽声, 前者称为被掩蔽音。对于两个纯音来说，最明显的掩蔽效应出现在掩蔽声频率附近，低频纯音能有效地掩蔽高频纯音，而高频纯音对低频纯音的掩蔽效应小。

2定义编辑

Mp3编解码器只关心频率之间和音量之间的相互关系。用mp3编解码器能够处理的方式描述同步掩蔽如下：你有个声音信号，是个1000赫兹的正弦波：

（一），然后我们再来一个1100赫兹的正弦波。

（二），正弦波二比较弱，-10db。大多数人在这种情况下感知不到正弦波二的存在。但是正弦波二之所以不容易被感知，不仅因为它比较弱，而且还因为它的频率和正弦波一十分接近。为了说明这个现象，我们逐渐增加第二个正弦波的频率，但保持它的音量不变，直到我们能听到它。假定它的频率增加到4000赫兹的时候我们就能听到这个声音了。当两个正弦波的频率差别逐渐变大，第二个正弦波逐渐可以听得到，直到它的频率增高到某一点之后，绝大多数人都可以听到两个互不相同的音调了，一个比较大声，另一个比较小声。　这个过程就是心理声学所说的“同步掩蔽”现象。两个频率相近，但是音量相差很多的声音，很难被人类感知为两个不同的声音。考虑到这种现象，mp3在编码过程中尽量丢弃那些无法被感知的声音，或者分配尽可能少的比特给这些声音。^[1]

3听觉效应编辑

综述

掩蔽效应指人的耳朵只对最明显的声音反应敏感，而对于不明显的声音，反应则较不为敏感。例如在声音的整个频率谱中，如果某一个频率段的声音比较强，则人就对其它频率段的声音不敏感了。应用此原理，人们发明了mp3等压缩的数字音乐格式，在这些格式的文件里，只突出记录了人耳朵较为敏感的中频段声音，而对于较高和较低的频率的声音则简略记录，从而大大压缩了所需的存储空间。在人们欣赏音乐时，如果设备对高频响应得比较好，则会使人感到低频响应不好，反之亦然。

一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(maskingtone)，后者称为被掩蔽声音(maskedtone)。掩蔽可分成频域掩蔽和时域掩蔽。

频域掩蔽

一个强纯音会掩蔽在其附近同时发声的弱纯音，这种特性称为频域掩蔽，也称同时掩蔽(simultaneousmasking),如图12-03所示。从图12-03可以看到，声音频率在300Hz附近、声强约为60dB的声音掩蔽了声音频率在150Hz附近、声强约为40db的声音。又如，一个声强为60dB、频率为1000Hz的纯音，另外还有一个1100Hz的纯音，前者比后者高18dB，在这种情况下我们的耳朵就只能听到那个1000Hz的强音。如果有一个1000Hz的纯音和一个声强比它低18dB的2000Hz的纯音，那么我们的耳朵将会同时听到这两个声音。要想让2000Hz的纯音也听不到，则需要把它降到比1000Hz的纯音低45dB。一般来说，弱纯音离强纯音越近就越容易被掩蔽。

一组曲线分别表示频率为250Hz，1kHz和4kHz纯音的掩蔽效应，它们的声强均为60dB。从图14-04中可以看到：①在250Hz，1kHz和4kHz纯音附近，对其他纯音的掩蔽效果最明显，②低频纯音可以有效地掩蔽高频纯音，但高频纯音对低频纯音的掩蔽作用则不明显。

由于声音频率与掩蔽曲线不是线性关系，为从感知上来统一度量声音频率，引入了“临界频带(criticalband)”的概念。通常认为，在20Hz到16kHz范围内有24个临界频带，如表12-01所示。临界频带的单位叫Bark(巴克)，

1Bark=一个临界频带的宽度。

f(频率)<500Hz的情况下，1Bark≈f/100。

f(频率)>500Hz的情况下，1Bark≈9+4log(f/1000)。

以上我们讨论了响度、音高和掩蔽效应，尤其是人的主观感觉。其中掩蔽效应尤为重要，它是心理声学模型的基础。

表12-01 临界频带[16]

临界

频带频率 (Hz) 临界

频带频率(Hz)

低端高端宽度低端高端宽度

0 0 100 100 13 2000 2320 320

1 100 200 100 14 2320 2700 380

2 200 300 100 15 2700 3150 450

3 300 400 100 16 3150 3700 550

4 400 510 110 17 3700 4400 700

5 510 630 120 18 4400 5300 900

6 630 770 140 19 5300 6400 1100

7 770 920 150 20 6400 7700 1300

8 920 1080 160 21 7700 9500 1800

9 1080 1270 190 22 9500 12000 2500

10 1270 1480 210 23 12000 15500 3500

11 1480 1720 240 24 15500 22050 6550

12 1720 2000 280

时域掩蔽

除了同时发出的声音之间有掩蔽现象之外，在时间上相邻的声音之间也有掩蔽现象，并且称为时域掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking)，如图12-05所示。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说，超前掩蔽很短，只有大约5～20ms，而滞后掩蔽可以持续50～200ms。这个区别也是很容易理解的。

时间掩蔽

同步掩蔽效应和不同频率声音的频率和相对音量有关，时间掩蔽则仅仅和时间有关。如果两个声音在时间上特别接近，人类在分辨它们的时候也会有困难。例如如果一个很响的声音后面紧跟着一个很弱的声音，后一个声音就很难听到。但是如果在第一个声音停止后过一段时间再播放第二个声音，后一个声音就可以听到。到底应该间隔多长时间？对纯音一般来讲是5毫秒。当然如果在时序上反过来效果是一样的，如果一个较低的声音出现在一个较高的声音之前而且间隔很短，那个较低的声音你也听不到。

JPEG压缩可以明确控制压缩中的信息丢弃比率，但Mp3用户不能。可是mp3用户可以指定每一秒的音乐是用多少个bit来存储。最终效果相同。

编码过程中，信号中的“无用分量”被拿来和人类心理声学的数学模型，以及压缩使用的彼特率作比较，以决定要扔掉哪些数据。当前mp3压缩使用的比特率一般是128kbps。编码器在输出每一帧数据的时候都会考虑到这个数字，如果比特率比较低，那么“无关”和“冗余”数据的定义就会被放宽，导致大量的数据被认为是无用数据，此时压缩后的音频会丢失大量细节，导致音质下降。相反，如果使用较高的比特率编码，“无关”和“冗余”的标准就会被限定的更严格，细节会被保留，但是文件更大。

注意，mp3文件的比特率指的是所有被编码声道的总比特率。也就是说一个128kbps立体声mp3文件，和两个同样时间的64kbps的单声道mp3文件加起来的大小相同。但是一个128kbps立体声文件达到的音效，比两个单独的单声道64kbps文件所达到的音质要好。因为在一个立体声mp3文件中，所有的bit可以被按照需求（不平均地）分配给两个声道，比如某一个时刻，一个声道使用其中60%的比特，另外一个使用剩下40%的比特，只不过总比特数不会超过编码前指定的比特率参数。

固定比特率和可变比特率

我们假定这里讨论的mp3编码使用的是固定比特率的编码方式，也就是说编码产生的文件在任何一个时间段内输出的比特率都是你指定的那个数值。固定比特率编码的缺点是，绝大部分声音文件中的信息量并不是固定不变的。使用乐器较多，或者有很多人同时说话的音频片断中，信息量就大，反之就小：类似这样影响音频文件信息量的因素还有很多。

可变比特率编码就是为了适应音频文件的这一特点开发的。可变比特率编码，会根据音频数据的动态特性随时调整编码使用的比特率。多数情况下，可变比特率编码能用更小的文件达到和固定比特率编码基本相同的音质。但是可变比特率编码也有其自身的缺点。首先，一些比较古老的播放器根本支持对可变比特率mp3文件的解码，不能播放这样的文件。第二，解码器播放可变比特率mp3的时候无法确定当前解码（播放）到了什么位置，播放器上显示的“当前播放时间”是不准的。

对一个固定比特率压缩的mp3文件来说，每一帧的头部中的信息都是相同的，但是对可变比特率mp3编码来说就不是。但是解码的时候，可变比特率编码并不比固定比特率的文件需要更多的计算能力，因为mp3解码器即使在播放固定比特率的mp3文件的时候也要读取全部的帧头部。

编码过程中输出任何一帧的时候都必须考虑到，不能超过指定的比特率。由于声音数据的复杂，经常会看到一些帧的数据，不能在满足指定的比特率的前提下，同时达到既定的声音质量。对这样的情况，Mp3标准允许编码器“拆东墙补西墙”，也就是把这一帧里放不下的数据，放到另外一些数据较少、因而有剩余空间的帧内。注意多出来的空间，是别的帧里多出来的富余空间，而不是特别开辟出来的额外空间。

4视觉效应编辑

空间域

视觉的大小不仅与邻近区域的平均亮度有关，还与邻近区域的亮度在空间上的变化（不均匀性）有关。假设将一个光点放在亮度不均匀的背景上，通过改变光点的亮度测试此时的视觉，人们发现，背景亮度变化越剧烈，视觉越高，即人眼的对比度灵敏度越低。这种现象称为空间域中的视觉的掩蔽效应（Masking）。

时间域

影响时间域中掩蔽效应的因素比较复杂，对它的研究还处于初始阶段。这里仅介绍一些实验结果，这些结果可能在数据压缩方面具有潜在的应用价值。实验表明，当电视图像序列中相邻画面的变化剧烈（例如场景切换）时，人眼的分辨力会突然剧烈下降，例如下降到原有分辨力的1/10。也就是说，当新场景突然出现时，人基本上看不清新景物，在大约0.5秒之后，视力才会逐渐恢复到正常水平。显然，在这0.5秒内，传送分辨率很高的图像是没有必要的。研究者还发现，当眼球跟着画面中的运动物体转动时，人眼的分辨率要高于不跟着物体转动的情况。而通常在看电视时，眼睛是很难跟踪运动中的物体的。

彩色

在亮度变化剧烈的背景上，例如在黑白跳变的边沿上，人眼对色彩变化的敏感程度明显地降低。类似地，在亮度变化剧烈的背景上，人眼对彩色信号的噪声（例如彩色信号的量化噪声）也不易察觉。这些都体现了亮度信号对彩色信号的掩蔽效应。

5人耳效应编辑

一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。人耳的掩蔽效应。被掩蔽音单独存在时的听阈分贝值，或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明，3kHz—5kHz绝对闻阈值最小，即人耳对它的微弱声音最敏感；而在低频和高频区绝对闻阈值要大得多。在800Hz--1500Hz范围内闻阈随频率变化最不显著，即在这个范围内语言可储度最高。在掩蔽情况下，提高被掩蔽弱音的强度，使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限)，被掩蔽弱音必须提高的分贝值称为掩蔽量(或称阈移)。

1．掩蔽效应已有实验表明，纯音对纯音、噪音对纯音的掩蔽效应结论如下： A.纯音间的掩蔽 ①对处于中等强度时的纯音最有效的掩蔽是出现在它的频率附近。 ②低频的纯音可以有效地掩蔽高频的纯音，而反过来则作用很小。 B.噪音对纯音的掩蔽噪音是由多种纯音组成，具有无限宽的频谱若掩蔽声为宽带噪声，被掩蔽声为纯音，则它产生的掩蔽门限在低频段一般高于噪声功率谱密度17dB，且较平坦；超过500Hz时大约每十倍频程增大10dB。若掩蔽声为窄带噪声，被掩蔽声为纯音，则情况较复杂。其中位于被掩蔽音附近的由纯音分量组成的窄带噪声即临界频带的掩蔽作用最明显。所谓临界频带是指当某个纯音被以它为中心频率，且具有一定带宽的连续噪声所掩蔽时，如果该纯音刚好能被听到时的功率等于这一频带内噪声的功率，那么这一带宽称为临界频带宽度。临界频带的单位叫巴克(Bark)，1Bark=一个临界频带宽度。频率小于500Hz时，1Bark约等于freq/100；频率大于500Hz时，1Bark约等于9+41og(freq/1000)，即约为某个纯音中心频率的20% 通常认为，20Hz--16kHz范围内有24个子临界频带。而当某个纯音位于掩蔽声的临界频带之外时，掩蔽效应仍然存在。 2．掩蔽类型 (1)频域掩蔽所谓频域掩蔽是指掩蔽声与被掩蔽声同时作用时发生掩蔽效应，又称同时掩蔽。这时，掩蔽声在掩蔽效应发生期间一直起作用，是一种较强的掩蔽效应。通常，频域中的一个强音会掩蔽与之同时发声的附近的弱音，弱音离强音越近，一般越容易被掩蔽；反之，离强音较远的弱音不容易被掩蔽。例如，—个1000Hz的音比另一个900Hz的音高18dB，则900Hz的音将被1000Hz的音掩蔽。而若1000Hz的音比离它较远的另一个1800Hz的音高18dB，则这两个音将同时被人耳听到。若要让1800Hz的音听不到，则1000Hz的音要比1800Hz的音高45dB。一般来说，低频的音容易掩蔽高频的音；在距离强音较远处，绝对闻阈比该强音所引起的掩蔽阈值高，这时，噪声的掩蔽阈值应取绝对闻阈。 (2)时域掩蔽所谓时域掩蔽是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现时，又称异时掩蔽。异时掩蔽又分为导前掩蔽和滞后掩蔽。若掩蔽声音出现之前的一段时间内发生掩蔽效应，则称为导前掩蔽；否则称为滞后掩蔽。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间，异时掩蔽也随着时间的推移很快会衰减，是一种弱掩蔽效应。一般情况下，导前掩蔽只有3ms—20ms，而滞后掩蔽却可以持续50ms—100m。研究声音和它引起的听觉之间关系的一门边缘学科。它既是声学的一个分支,也是心理物理学的一个分支。心理声学本可包括言语和音乐这样一些复合声和它们的知觉。这些可见语言声学、音乐声学等条，本条只限于较基础和简单的心理声学现象，即：

①刚刚能引起听觉的声音──听阈；

②声音的强度、频率、频谱和时长这些参量所决定的声音的主观属性──响度、音调、音色和音长；

③某些和复合声音有关的特殊的心理声学效应──余音、掩蔽、非线性、双耳效应。

听阈　听阈分强度阈和差阈。声音不够一定强度不能引起听觉。在多次作用中能有50%的次数引起听觉的最小声压级称为强度阈（也称听阈）。听阈有个体差异，因而所谓正常听阈只能是一些听力正常的年轻人的听阈的统计平均值。听阈随频率而变化。500～4000Hz之间阈值最低，在它们之上和之下的高频声和低频声的阈值都较高，如20Hz纯音的阈值比1000Hz纯音的阈值约高70dB，10000Hz纯音的阈值也比 1000Hz纯音的阈值约高10dB。最敏感的频率是3000Hz左右，空气分子振动的振幅达到10-11m 就可以听到，这只有氢气分子的直径的十分之一。听阈随年龄而增高，特别是高频部分，表现为老年聋，如70岁的老人，5000Hz纯音的听阈约增高45dB。

听阈的概念还包括差阈，即两个声音引起听觉差别的最小可觉差。就频率说，在63Hz左右有经验的人耳能区别相差0.5Hz的两个纯音的差别，但这种阈值在1000Hz要增加到1.4Hz，频率越高差阈越大。人耳能区别的强度差值最小0.25dB（1000～4000Hz,70dB以上），强度低或频率更高或更低时，强度差阈更大。在整个听觉范围内,可辨别的声音约34万个。

声音的主观属性响度表示的是一个声音听来有多响的程度。响度主要随声音的强度而变化，但也受频率的影响。两者的量的关系，按古典的心理物理学规律，响度与强度的对数成正比。为了检验这一假说的正确性，现代心理物理学进行了响度的定量判断实验，并建立了响度量表，其单位为宋(son)。1宋的定义为40dB1000Hz纯音所引起的响度，大致相当于耳语的声级。宋量表证明，响度正比于 1000Hz等响声压的0.6次幂，就是说，1000Hz等响声的声压级提高10dB，响度加倍。前者称为响度级，这说明响度的变化不是单纯地决定于声音强度，也与频率有关。不同频率的两个纯音，虽强度相同，引起的响度却不同。总的说，中频纯音听来比低频和高频纯音响一些。以不同声压级的1000Hz纯音为参照声，通过响度平衡实验,可以得到一簇等响线,如上图所示。在一条等响线上,各频率的纯音尽管声压级不同,但都与该曲线上的1000Hz纯音等响。1000Hz纯音的这一声压级即定为此曲线上各纯音的响度级，其单位称为方(phon)。

音调　音调是声音听来调子高低的程度。音调主要决定于声音的频率,它随频率的升降而升降。但是,它也不是单纯地由频率决定，与声音强度也有关系。低频纯音的音调随强度增加而下降；反之，高频纯音的音调却随强度增加而上升。类似响度的宋量表，也制定了音调量表。音调定量判断实验是让听者调节发生器产生一系列纯音，使它们在音调上听来间隔相等。这样取得的平均判断构成了音调量表，其单位称为美。在此量表上，1000Hz纯音的音调被定为1000美(mel)。

音色　音色是对声音音质的感觉。上面提过的纯音不存在音色问题，它是伴随复合声出现的。明显的例子是不同乐器所发出的声音在音色上的不同。小提琴和钢琴发出的中央C,尽管它们响度和音调相同，听起来还是不一样，原因在于它们音色的差异。声音的音色决定于它们的频谱，即声音谐波振幅的不同。复合声这种多量纲的特点使得音色也具有多量纲性，不同于只有单个量纲的响度和音调。响度可以在宋量表上定出由响到轻的程度，音调可以在美量表上定出由高到低的程度，音色则只能用多维空间上相应的点来确定。言语声的多维量表实验证明，音色的知觉空间上的点与频谱的物理空间上的点是非常吻合的。

音长　音长是声音长短的感觉。声音的参量作为时间的函数只要有两个清楚的变化便可产生主观音长感觉。最简单的例子是一个声脉冲或一段休止，它们都只有一头一尾的变化。很久以来，人们总以为音长和声音的物理长短是相等的,忽视了对它的研究。其实,在极端情况下两者可相差四五倍之多。这是用脉冲声和短于 500ms的休止所作的实验结果。音长受声级的影响不大，但频率对它的影响却不可忽视,尤其是300ms以下的短声。如果以3 200Hz的脉冲声作参照,频率在它上下的脉冲声必须有较长的物理声长才能产生相等的音长感觉。用这种音长平衡实验可以得到一簇类似于等响线的等音长线。^[2]

6噪声效应编辑

噪声的掩蔽效应是指一个声音的听阈因另外一个或多个声音的存在而提高的现象。在工业生产上，噪声的掩蔽效应是广泛存在的。这一掩蔽效应经常使操作人员听不到事故的前兆和警戒信号（行车信号、危险报警信号等）而发生工伤事故。另外，由于噪声掩蔽了指令信号而引起误操作亦会导致事故的发生。在我国大中型钢铁企业中，就曾发生过因高炉排气放空的强噪声掩蔽了火车鸣笛声，而造成铁轨上正在作业的工人被轧死的惨重事故。柳州钢铁厂曾因高炉鼓风机噪声大于100dB（A），影响了电话联系，将“关风”误听成“送风”，造成了误操作，影响了安全生产。在化工行业也不乏其例。因此，治理噪声应引起各级安全部门的高度重视。