数字音乐自动分析和检索

金陵一棵树 2008-11-21

展开全文

数字音乐自动分析和检索

传统公共图书馆馆藏中的数字音乐作品的数量在逐渐增加，音乐专业图书馆馆藏中数字音乐作品的数量就更多了。此外，数字采样技术的出现，为传统的音乐作品存储媒介的保存问题提供了一个解决办法。大量以磁带和老式唱片保存的音乐作品亟待数字化保存。这些音乐作品数字化保存的结果将加快数字音乐信息数量的增长速度。

数字音乐信息数量的迅速增长对有效的数字音乐信息组织手段和方法提出了新的要求。计算机领域和信息管理领域的学者们也意识到了这一点，寻求数字音乐信息有效组织方法的研究工作已经在很多国家开展起来。

国内外学者主要从两个方面对数字音乐信息的组织方法进行研究。一部分学者从数字音乐信息的外部特征入手进行研究，提出了描述数字音乐的各种元数据方案，对数字音乐信息的外部特征进行描述，从而实现对数字音乐信息的有效管理。另一部分学者则从音乐内容的角度出发，希望能够用音乐信息的内容特征来对数字音乐信息进行组织。

基于内容的数字音乐自动分析和检索

基于内容的数字音乐自动分析与检索研究主要是以数字音频文件自动分析技术为基础的。国外的学者在这方面进行了很多探索（主要集中在美国、欧洲、澳大利亚、新加坡等国家）。

音频特征的自动抽取

在进行音频特征自动抽取之前，首先要对音频文件进行加窗处理，即把音频文件划分一个个小段，每个小段称为一帧，一般每帧的长度为10-30毫秒，相邻的两帧之间有几毫秒的重叠。然后，对每帧进行离散傅立叶变换（DFT）或快速傅立叶变换（FFT），最后用不同算法计算它的音频特征。

通过计算得到的音频特征有两种：一种是感性特征，如响度、音高、节奏等；另一种是非感性特征，如Mel频率倒频谱系数（Mel-Frequency Cepstral Coefficients，MFCCs）、平均过零率（Average Zero-Crossing Rate，ZCR）、基频（Fundamental Frequency，FuF）、能量等。

音频特征的自动抽取结果是进行音频分割、音频聚类和检索的前提。

音频文件的自动分割

对音频文件的自动分割是通过探测音频特征（如基频或能量）分割边界来实现的，分割边界是音频特征突然转变的地方。比如，默音（silence）在响度上低于语音、音乐和环境音响；而音乐频谱的有序性就可以使音乐区分于其它音频。通过音频文件的自动分割技术可以从音频文件中自动识别出语音、音乐、环境音响（如脚步声、掌声、铃声等），也可以从音乐文件中分割伴奏部分和演唱部分。

音频文件的自动分割技术被应用到很多领域：进行语音识别的研究人员把它用于在其它音频信息中分离语音信息；还有人用它对电视节目或电台节目录音进行自动分割以及对电影音轨的自动识别。

音频文件的聚类和检索

从音频文件中自动抽取的音频特征经过不同组合，可以形成特征向量来对音频文件进行标引。用各种算法来计算音频文件之间的相似度，即特征向量之间的距离，从而在音频特征向量空间里形成一个个音频文件簇，这就是音频文件的自动聚类，有点类似文本信息检索中的向量空间模型。奥地利维也纳技术大学的研究人员还尝试使用人工神经网络技术进行音频文件自动聚类。

进行音频文件数据库检索的时候，用户提问式是一个音频文件样本，系统自动对音频文件进行特征抽取，形成提问向量，然后计算提问向量和向量空间中音频文件向量或向量簇的相似度，相似度超过给定阈值的作为命中结果输出，相似度可以作为排序输出的依据。音频文件的自动聚类和检索技术同样适用于数字音乐信息的自动聚类和检索。

新加坡：基于内容的音乐与音频检索的研究

新加坡国立大学的这项研究是由Jonathan Foote完成的。首先，这项研究要求积累一定规模的音频文件样本库，并且要经过自动处理，形成特征向量；其次，这个样本库中的音频文件都要经过人工标注，也就是说每一个文件都要归入一类（比如，男声和女声，或语音和音乐等），作为训练数据来构造量化树(Tree-based quantizer, 略为TreeQ)。

Foote在研究中使用的音频特征是MFCC和能量。首先对样本库中的波形文件进行加窗处理，然后对得到的每一帧计算其MFCC，和能量一起形成一个向量。这样，一个波形文件就被转化成一组这样的向量。当样本库中所有的文件都转化完成以后，这些向量就被用来构造量化树。理论上，训练样本库越大，得到的量化树的分类能力就越高。量化树把特征空间分割成若干区域，每一个区域对应于量化树的一个叶子结点。得到量化树以后，就可以为每一个音频文件建立参照直方图，以进行分类和检索。参照直方图的每一个分量对应量化树的一个结点。如前所述，一个音频文件事前已经被转化成一组向量。这组向量经过量化树的处理，最终都将落到量化树的叶子结点上。而每个叶子结点上的向量的数量比上这个文件的向量总数就是参照直方图相应的分量的大小。显然，参照直方图的分量都不大于1。分类和检索的过程就是计算直方图之间的距离的过程。

在这里，Foote采用了欧几里得距离，设有两个直方图p和q，则p和q之间的距离D(p,q)定义为：

D(p,q)的值越小，表示p和q越相关。

用量化树和参照直方图进行分类的过程如图1所示。在分类之前，作为训练数据的样本库中的经过标注每一类的文件要经过量化树的处理，得到相应类的参照直方图。而被分类的音频文件（未知数据）也要经过量化树的处理，得到相应的直方图。然后计算测试直方图和各类的参照直方图之间的距离，将被分类文件归入距离最短的类。用上述方法进行检索之前，则需要把检索用的数据库中的所有音频文件进行量化处理，得到相应的参照直方图，也就是标引。检索时，对检索提问也要进行相应的处理，得到提问直方图。检索的过程就是计算提问直方图和参照直方图之间的距离的过程。检索结果按照相关程度由大到小的顺序（即距离由小到大的顺序）排列。

Foote的方法在音频文件的自动分析和检索方面取得了比较好的效果，这一结果也可以很好地应用到数字音乐文件的自动分析和检索上。但是这种方法对不同的乐器演奏出的同一只乐曲的分辨能力则显得有些不尽人意，因为不同的乐器的频谱不同。

德国：自动音频内容分析研究

德国曼海姆大学的这个研究项目的主要目的是对电视节目中广告进行分析。研究人员首先用响度等音频特征对事先录制好的电视广告节目的音频部分进行粗略分割，得到音乐和环境音响（噪音）的音频文件。然后用基频序列提取法对分割出来的音乐文件进行自动分析，提取相应的基频时间序列，并以此对相应的音乐文件进行标引。检索时，检索提问是在电视节目中截取的电视广告音乐，对检索提问文件也应用基频提序列取法提取相应的基频序列，并与数据库中的基频序列进行比较，如果找到相似基频序列，说明提问文件是已经出现过的广告，如果没有找到相似基频序列则说明提问文件是一则新广告。

上述基频序列提取法的基础是FFT变换。对音频文件进行加窗处理以后，进行FFT变换，得到相应的频谱，然后用基频确定算法在频谱中找出基频。重复上述步骤，得到基频序列。基频确定算法如下：

i. 确定频谱中最低的频率，设为f1；

ii. 确认fx=((I+1)/I)f1是否存在，其中I=2, 3, 4, 5；

iii. 如果存在，则令f0=f1/I为基频；

iv. 否则，令f1为基频。

实验结果表明，上述方法在分辨新广告乐曲时效果不甚理想。

中国：基于旋律的音乐检索

中国艺术研究院音乐研究所《“基于旋律的数字音频音乐信息检索系统”的研制与应用》实现了一个基于旋律的数字音乐检索系统。系统收录了千余首中国民族音乐作品，系统的结构如图2所示。

数据库中乐曲以MP3格式保存。直接从MP3等格式的音频音乐文件中提取乐谱是一直困扰着研究人员的一个难题，研究人员想办法绕过了这个难题。每首乐曲的旋律不是直接从MP3音乐中提取，而是由受过一定乐器训练的人员使用单频音键盘弹奏该乐曲的主题，再由旋律提取子系统对弹奏结果进行自动分析，提取乐曲旋律。旋律提取子系统使用的旋律提取算法借用了曼海姆大学的基频确定算法，取得了很好的效果，基本上能够准确地提取乐曲的主题旋律。为每首乐曲提取出过主题旋律使用。笔者在博士学位论文中提出的数值音名表示法来表示，形成旋律数据库。数值音名表示法是指用从1到88这88个自然数来表示旋律中相应的音符，忽略休止符。比如下面这段旋律就可以表示为：{35, 47, 44, 47, 51, 51, 49, 47, 44, 47, 49, 51, 51, 49, 47, 47, 44, 47, 49, 51 }

用户可以通过两种途径向系统提出检索提问，一是通过单频音键盘弹奏检索提问片断，经过旋律提取子系统得到检索提问旋律；另一个途径是通过手机短信向系统号码发送检索提问旋律的简谱形式，经过格式转换得到用数字音名表示法表示的检索提问旋律。

设检索提问旋律为dq = {pq1, pq2, ... , pqn}进行检索匹配时，从旋律数据库中被匹配旋律开始位置取出和检索提问旋律等长的音名序列dm = {pm1, pm2, ... , pmn}，定义两个音名序列的距离为：

D ＝ (∑|pmi - pqi|) / n

D的值越小，就说明两个音名序列的相似度就越大。每次向后移动一个音名，重复上述过程，直至被检索旋律结尾。在得到的距离集合中选取最小值作为用户提问和被检索的旋律之间的距离。这个算法把常用的字符串匹配转化成了数值计算，从而简化了检索匹配过程。实验表明，系统对于用户输入有一定的容错能力，能够准确地检出用户想要的乐曲。

随着数字音乐信息在数量上的激增，基于内容的音乐检索的研究将成为一个被多方普遍关注的研究热点。