声学的基本概念声音,来源于振动的物体,辐射声音的振动物体称之为声源。 声波的概念声波,一般用频率和声压两个指标形容。 人类的听觉范围为20Hz~20000Hz,即20hz~20kHz,最敏感的是1000hz~3000hz之间的声音。低于人类听觉范围的叫做次声波,高于这个范围的叫做超声波。
声波,根据波面的不同可分为平面波、柱面波、球面波。 在声波传播的过程中,如果将同位相的点相连,得到的是一系列平行的平面,则称之谓平面波。平面波的波阵面与传播方向是垂直的。平面声波的一个重要特点是,它的振幅不随传播距离而变化(假定媒质没有吸收。) 如果同位相的点相联得到的是平行的柱面,就称为柱面波,其声源一般可视为“线声源”。柱面波的振幅与传播距离的平方根成反比。 声音四要素人的发声器官实际上存在着大小、形态及功能上的差异。发生控制器官包括声带、软颚、舌头、牙齿、唇等;发声共鸣器包括咽腔、口腔、鼻腔,这些器官的微小差异都会导致发声气流的改变,造成音质、音色的差别。此外,人发声的习惯亦有快有慢,用力有大有小,也造成音强、音长的差别。 音高、音强、音长、音色,统称为声音“四要素”,这些要素可分解成九十余种特征。这些特征表现了不同声音的不同波长、频率、强度、节奏。
语图仪可以把声波的变化转换成电讯号的强度、波长、频率、节奏变化,仪器又把这些电讯号的变化绘制成波谱图形,就成了声纹图。目前应用的语图仪可以制作七种声纹图:宽带声纹、窄带声纹、振幅声纹、等高线声纹、时间波谱声纹、断面声纹(又分宽带、窄带二种)。 其中,前二种显示语声的频率与强度随时间推移的变化特征;中间三种显示语音强度或声压随时间变化的特征;断面声纹只是显示某一时间点上声波强度和频率特征的声纹图。 音高和频率物体在一秒钟之内振动的次数叫做频率,单位是Hz,赫兹。在国际电信联盟定义的无线电频率划分当中:
环境和分贝声音在不同介质中传播的速度,一般是固体>液体>气体,传播的速度还与介质的种类和温度有关。 声音的传递过程中遇到障碍物就会反弹,发生回声现象。多数情况下,只有一个较大分贝的声音在空旷环境下,人耳才会分辨出回声,日常生活中人耳也经常收集到回声,但由于回声的分贝低或者在嘈杂环境下,所以人耳分辨不出回声。 正常人范围在0dB-140dB(分贝),那么非正常范围我们称之为噪声。噪声分为两类,外界环境噪声和振动,和设备噪声和振动。
声学的基本术语语音 语音是一个连续的音频流,也是一种时间序列,以离散信号的形式被编码,然后使用一定的文件格式来存储,例如”.wav”。 音素 phone,根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。相同发音动作发出的音就是同一音素,不同发音动作发出的音就是不同音素。 音素分为元音与辅音两大类。
英语音素: 英语音素(英语国际音标),共48个音素,其中元音音素20个、辅音音素28个。注意音素和字母不是同一个概念,英语字母共有26个,其中有元音字母5个、辅音字母19个、半元音字母2个。 元音音素,20个元音音素,分为单元音和双元音。 28个辅音音素,其中十个清辅音与十个浊辅音恰好成对,以及8个音标。
汉语音素 举几个例子说明: 汉语音节a(啊)只有一个音素,ai(爱)有两个音素,dai(呆)有三个音素等。 ma和mi中的m就是同一个因素。 Putonghua(普通话)中包含p、u、t、o、ng、h、u、a共8个因素。 多元音素 Senone,有时候,音素会被放在上下文中考虑,这样就形成了三元音素或者多元音素。但它与亚音素不同,他们在波形中匹配时长度还是和单一音素一样。 由于中文、英文、数字、方言、各国语言等的音素是不同的,所以就导致了各厂商语音模型对这些的支持是非常不一样的。 音节 syllables,由音素phones构成的亚单词单元,称为音节。通俗的讲,指由一个或数个音素组成的语音结构基本单位。 音节是一个比较稳定的实体,因为当语音变得比较快的时候,音素往往会发生改变,但是音节却不变。音节与节奏语调的轮廓有关。 单词 亚单词单元(音节)构成单词。单词在语音识别中很重要,因为单词约束了音素的组合。假如共有40个音素,然后每个单词平均有7个音素,那么就会存在40^7个单词。 声道 Sound Channel,是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。 谐波harmonicwavelength,是一个数学或物理学概念,是指周期函数或周期性的波形中能用常数、与原函数的最小正周期相同的正弦函数和余弦函数的线性组合表达的部分。 共振峰 共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道的物理特征。 |
|