音视频编码技术与格式大全
常见视频格式中采用的技术当PC开始拥有FPU(浮点处理器)后,PC如何处理多媒体信息的问题也被摆上台面。无数专家开始为音频视频编码技术运用在PC上开始忙碌了,视频技术也因此得到了飞快的进步。1、无声时代的FLCFLC、FLI是Autodesk开发的一种视频格式,仅仅支持256色,但支持色彩抖动技术,因此在很多情况下很真彩视频区别不是很大,不支持音频信号,现在看来这种格式已经毫无用处,但在没有真彩显卡没有声卡的DOS时代确实是最好的也是唯一的选择。最重要的是,Autodesk的全系列的动画制作软件都提供了对这种格式的支持,包括著名的3DStudioX,因此这种格式代表了一个时代的视频编码水平。直到今日,仍旧有不少视频编辑软件可以读取和生成这种格式。但毕竟廉颇老矣,这种格式已经被无情的淘汰。2、载歌载舞的AVIAVI——AudioVideoInterleave,即音频视频交叉存取格式。1992年初Microsoft公司推出了AVI技术及其应用软件VFW(VideoforWindows)。在AVI文件中,运动图像和伴音数据是以交织的方式存储,并独立于硬件设备。这种按交替方式组织音频和视像数据的方式可使得读取视频数据流时能更有效地从存储媒介得到连续的信息。构成一个AVI文件的主要参数包括视像参数、伴音参数和压缩参数等。AVI文件用的是AVIRIFF形式,AVIRIFF形式由字串“AVI”标识。所有的AVI文件都包括两个必须的LIST块。这些块定义了流和数据流的格式。AVI文件可能还包括一个索引块。只要遵循这个标准,任何视频编码方案都可以使用在AVI文件中。这意味着AVI有着非常好的扩充性。这个规范由于是由微软制定,因此微软全系列的软件包括编程工具VB、VC都提供了最直接的支持,因此更加奠定了AVI在PC上的视频霸主地位。由于AVI本身的开放性,获得了众多编码技术研发商的支持,不同的编码使得AVI不断被完善,现在几乎所有运行在PC上的通用视频编辑系统,都是以支持AVI为主的。AVI的出现宣告了PC上哑片时代的结束,不断完善的AVI格式代表了多媒体在PC上的兴起。说到AVI就不能不提起英特尔公司的Indeovideo系列编码,Indeo编码技术是一款用于PC视频的高性能的、纯软件的视频压缩/解压解决方案。Indeo音频软件能提供高质量的压缩音频,可用于互联网、企业内部网和多媒体应用方案等。它既能进行音乐压缩也能进行声音压缩,压缩比可达8:1而没有明显的质量损失。Indeo技术能帮助您构建内容更丰富的多媒体网站。目前被广泛用于动态效果演示、游戏过场动画、非线性素材保存等用途,是目前使用最广泛的一种AVI编码技术。现在Indeo编码技术及其相关软件产品已经被LigosTechnology公司收购。随着MPEG的崛起,Indeo面临着极大的挑战。3、容量与质量兼顾的MPEG系列编码和AVI相反,MPEG不是简单的一种文件格式,而是编码方案。MPEG-1(标准代号ISO/IEC11172)制定于1991年底,处理的是标准图像交换格式(standardinterchangeformat,SIF)或者称为源输入格式(SourceInputFormat,SIF)的多媒体流。是针对1.5Mbps以下数据传输率的数字存储媒质运动图像及其伴音编码(MPEG-1Audio,标准代号ISO/IEC11172-3)的国际标准,伴音标准后来衍生为今天的MP3编码方案。MPEG-1规范了PAL制(352288,25帧/S)和NTSC制(为352240,30帧/S)模式下的流量标准,提供了相当于家用录象系统(VHS)的影音质量,此时视频数据传输率被压缩至1.15Mbps,其视频压缩率为26∶1。使用MPEG-1的压缩算法,可以把一部120分钟长的多媒体流压缩到1.2GB左右大小。常见的VCD就是MPEG-1编码创造的杰作。MPEG-1编码也不一定要按PAL/NTSC规范的标准运行,你可以自由设定影像尺寸和音视频流量。随着光头拾取精度的提高,有人把光盘的信息密度加大,并适度降低音频流流量,于是出现了只要一张光盘就存放一部电影的DVCD。DVCD碟其实是一种没有行业标准,没有国家标准,更谈不上是国际标准的音像产品。当VCD开始向市场普及时,电脑正好进入了486时代,当年不少朋友都梦想拥有一块硬解压卡,来实现在PC上看VCD的夙愿,今天回过头来看看,觉得真有点不可思议,但当时的现状就是486的系统不借助硬解压是无法流畅播放VCD的,上万元的486系统都无法流畅播放的MPEG-1被打上了贵族的标志。随着奔腾的发布,PC开始奔腾起来,直到后来WindowsMediaPlayer也直接提供了MPEG-1的支持,至此MPEG-1使用在PC上已经完全无障碍了。MPEG-2(标准代号IOS/IEC13818)于1994年发布国际标准草案(DIS),在视频编码算法上基本和MPEG-1相同,只是有了一些小小的改良,例如增加隔行扫描电视的编码。它追求的是大流量下的更高质量的运动图象及其伴音效果。MPEG-2的视频质量看齐PAL或NTSC的广播级质量,事实上MPEG-1也可以做到相似效果,MPEG-2更多的改进来自音频部分的编码。目前最常见的MPEG-2相关产品就是DVD了,SVCD也是采用的MPEG-2的编码。MPEG-2还有一个更重要的用处,就是让传统的电视机和电视广播系统往数码的方向发展。MPEG-3最初为HDTV制定,由于MPEG-2的快速发展,MPEG-3还未彻底完成便宣告淘汰。MPEG-4于1998年公布,和MPEG-2所针对的不同,MPEG-4追求的不是高品质而是高压缩率以及适用于网络的交互能力。MPEG-4提供了非常惊人的压缩率,如果以VCD画质为标准,MPEG-4可以把120分钟的多媒体流压缩至300M。MPEG-4标准主要应用于视像电话(VideoPhone),视像电子邮件(VideoEmail)和电子新闻(ElectronicNews)等,其传输速率要求较低,在4800-64000bits/sec之间,分辨率为176X144。MPEG-4利用很窄的带宽,通过帧重建技术,压缩和传输数据,以求以最少的数据获得最佳的图象质量。MJPEG,这并不是专门为PC准备的,而是为专业级甚至广播级的视频采集与在设备端回放的准备的,所以MJPEG包含了为传统模拟电视优化的隔行扫描电视的算法,如果在PC上播放MJPEG编码的文件,效果会很难看(如果你的显卡不支持MJPEG的动态补偿),但一旦输出到电视机端,你立刻会发现这种算法的好处。4、属于网络的流媒体RealNetworksRealVideo,采用的是RealNetworks公司自己开发的RealG2Codec,它具有很多先进的设计,例如,SVT(ScalableVideoTechnology);双向编码(Two—Encoding,类似于VBR)。RealMedia音频部分采用的是RealAudio,可以接纳很多音频编码方案,可实现声音在单声道、立体声音乐不同速率下的压缩。最新的RealAudio竟然采用ATRAC3编码方案,以挑战日益成熟的MP3。WindowsMedia,视频编码采用的是非常先进的MPEG-4视频压缩技术,被称作MicrosoftMPEG-4VideoCodec,音频编码采用的是微软自行开发的一种编码方案,目前没有公布技术资料,在低流量下提供了令人满意的音质和画质。最新的WindowsMediaEncodingUtilityV8.0将流技术推向到一个新的高度,我们常见的ASF、WMV、WMA就是微软的流媒体文件。事实上我们常见的MPG文件,也具有流媒体的最大特征——边读边放。二、常见的编码与常见的文件格式的对应关系及其常用用途1、AudodeskFLC这是一种古老的编码方案,常见的文件后缀为FLC和FLI。由于FLC仅仅支持256色的调色板,因此它会在编码过程中尽量使用抖动算法(也可以设置不抖动),以模拟真彩的效果。这种算法在色彩值差距不是很大的情况下几乎可以达到乱真的地步,例如红色A(R:255,G:0,B:0)到红色B(R:255,G:128,B:0)之间的抖动。这种格式现在已经很少被采用了,但当年很多这种格式被保留下来,这种格式在保存标准256色调色板或者自定义256色调色板是无损的,这种格式可以清晰到像素,非常适合保存线框动画,例如CAD模型演示。现在这种格式很少见了。2、MicrosoftRLE这是微软开发为AVI格式开发的一种编码,文件扩展名为AVI,使用了RLE压缩算法,这是一种无损的压缩算法,我们常见的tga格式的图像文件就使用了RLE算法。什么是RLE算法呢?这是一种很简单的算法,举一个很简单的例子:假设一个图像的像素色彩值是这样排列的:红红红红红红红红红红红红蓝蓝蓝蓝蓝蓝绿绿绿绿,经过RLE压缩后就成为了:红12蓝6绿4。这样既保证了压缩的可行性,而且不会有损失。而且可以看到,但颜色数越少时,压缩效率会更高。由于MicrosoftRLE仅仅支持256色,而且没有抖动算法,在色彩处理方面,FLC明显的比MicrosoftRLE要好很多。当然这也不表示MicrosoftRLE一无是处,和FLC一样,MicrosoftRLE在处理相邻像素时也没有色染,可以清晰的表现网格。因此同样可以优秀的表现单色字体和线条。只要色彩不是很复杂,FLC能做的,MicrosoftRLE也可以做到。由于AVI可以拥有一个音频流,而且Windows系统给与了直接的支持,MicrosoftRLE最常用的用途是,在256色显示模式下,通过配合抓屏生成AVI的工具制作一个软件的操作演示过程,以达到图文并茂,形声兼备的效果。3、MicrosoftVideo1这也是由微软提供的一个AVI编码,任何Windows系统都自带了了它的Codec,这个编码支持真彩,画面质量很不错,MicrosoftVideo1的压缩效率非常低下,编码后的文件庞大得让人受不了。这个MicrosoftVideo1究竟有什么用呢?一般被用在保存一些没有渐变的小型视频素材方面。4、IndeovideoR3.2这个编码由intel架构实验室开发,对应的文件格式是AVI,相对之前的流行的编码,IndeovideoR3.2最大的特点就是高压缩比(当然,比起现在的压缩方案,实在是不值得一提),intel声称压缩比可达8:1而没有明显的质量损失,解码速度也非常快,对系统要求不高,由于Windows9X中自带IndeovideoR3.2的Codec,所以IndeovideoR3.2一度成为了最流行的AVI编码方案。有不少游戏的过场动画和启动动画都是IndeovideoR3.2编码的。IndeovideoR3.2同样不适合高要求的环境,在要表现细线条或大色彩值变化的渐变时,IndeovideoR3.2会表现得非常糟糕。如果画面的色彩值差异不是很大,也没有明显的色彩区域界限,IndeovideoR3.2还是合适的,例如海天一色的场景。IndeovideoR3.2已经基本被淘汰,如果不是为了播放以前遗留的一些IndeovideoR3.2编码视频,恐怕WindowsME/2000都不会有IndeovideoR3.2的Codec了。5、Indeovideo5.10这个编码方案同样也是intel架构实验室开发的,它继承了IndeovideoR3.2的优点,对应的文件格式仍然是AVI,解码速度同样非常快。WindowsME/2000自带了Indeovideo5.1的Codec,很多游戏也适用Indeovideo5.10来编码自己的演示动画。在没有DivX普及前,这几乎是最流行的AVI编码了,由于微软和intel的同时支持,这种编码方案被广泛采用。6、None顾名思义,这是一个没有损失的视频编码方案,对应的文件扩展名为AVI。这种编码几乎是不压缩的,文件大得惊人!那么这种编码有什么用途呢?用途就是保存视频素材,因为是无损的,保存素材非常合适,代价就是大量的存储空间。7、MPEG1我们熟知的VCD就是MPEG1编码的,对应的文件扩展名为MPG、MPEG或者DAT。事实上MPEG1可以工作于非PAL制和非NTSC制标准下。它可以自由设置数据流量和画面尺寸,只是这样非标准的文件无法直接刻录成VCD。8、MPEG2DVD的视频部分就是采用的MPEG2,SVCD同样也采用了MPEG2编码。对应的文件扩展名一般为VOB、MPG。MPEG2的设计目标就是提供接近广播级的高品质输出。9、DivXDivX是近2年开始被大家认识的,DivX视频编码技术可以说是一种对DVD造成威胁的新生视频压缩格式(有人说它是DVD杀手)对应的文件扩展名为AVI或者DivX,它由Microsoftmpeg-4v3修改而来,使用MPEG-4压缩算法。据说是美国禁止出口的编码技术。DivX最大的特点就是高压缩比和不错的画质,更可贵的是,DivX的对系统要求也不高,只要主频300的CPU就基本可以很流畅的播放了,因此从DivX诞生起,立刻吸引了大家的注意力。DivX拥有比Indeovideo5.10高太多的压缩效率,编码质量也远远比Indeovideo5.10好,我实在想不出Indeovideo5.10还会有什么前途。10、PICVideoMJPEGMJPEG是很多视频卡支持的一种视频编码,随卡提供了Codec,安装完成后可以象使用其它编码一样生成AVI文件。MJPEG编码常用于非线性系统,批上了一层很专业的外衣。MJPEG的编码质量是相当高的,是一种以质量为最高要求的编码,这种编码的设置比较复杂,可以得到很高的压缩比,但牺牲了解码速度,如果要保证解码速度,编码后的压缩比确不是很理想,如果您希望从专业的非线性系统上捕捉视频,然后自行进行处理,这种格式是很有必要去了解一些的。11、RealNetworksRealVideoREALVIDEO(RA、RAM)格式由RealNetworks公司开发的,一开始就定位在视频流应用方面的,也可以说是视频流技术的始创者。它可以在用56KMODEM拨号上网的条件实现不间断的视频播放。从RealVideo的定位来看,就是牺牲画面质量来换取可连续观看性。其实RealVideo也可以实现不错的画面质量,由于RealVideo可以拥有非常高的压缩效率,很多人把VCD编码成RealVideo格式的,这样一来,一张光盘上可以存放好几部电影。REALVIDEO存在颜色还原不准确的问题,RealVideo就不太适合专业的场合,但RealVideo出色的压缩效率和支持流式播放的特征,使得RealVideo在网络和娱乐场合占有不错的市场份额。12、WindowsMediavideoWindowsMediavideo就是微软为了和现在的RealNetworks的RealVideo竞争而发展出来的一种可以直接在网上观看视频节目的文件压缩格式!由于它使用了MPEG4的压缩算法,所以压缩率和图像的质量都很不错。我们经常看到的ASF和WMV就是WindowsMediavideo。WindowsMediavideo的编码质量明显好于RealVideo,因为WindowsMediavideo是微软的杰作,所以Windows系统给WindowsMediavideo给与了很好的支持,WindowsMediaPlayer可以直接播放这些文件。2002年,国家信息产业部科学技术司批准成立数字音视频编解码技术标准工作组,制定具有自主知识产权的AVS系列信源编码标准,AVS标准为《信息技术先进音视频编码》系列标准的简称,它包括了系统、视频、音频、版权管理、文件格式、网络传输等从视频压缩技术到系统规范的一整套标准,AVS标准的制定和推广对减轻国内的音视频相关产业的专利费负担以及提升核心竞争力具有极其重要的意义。与MPEG-4AVC/H.264的baselineprofile相比,AVS视频增加了B帧interlace等技术,因此其压缩效率明显提高,而与MPEG-4AVC/H.264的mainprofile相比,又减少了CABAC等实现难度大的技术,从而增强了可实现性。基于AVS标准的上述优点,本文选择对该标准进行研究。AVS视频当中具有特征性的核心技术包括:8×8整数变换、量化、帧内预测、四分之一精度像素插值、特殊的帧间预测运动补偿、以及熵编码、去块效应环内滤波等。一、帧间预测算法研究AVS标准采用了16×16、16×8、8×16和8×8的块模式进行运动补偿,较少的块模式(相比于MPEG-4AVC/H.264),能降低运动矢量和块模式编码传输的开销,从而提高压缩效率、降低编解码实现的复杂度。而AVS采用不同的4抽头滤波器进行半像素插值和四分之一像素插值,在不降低性能的情况下减少了插值所需要的参考像素点,降低了数据存取带宽需求。AVS中的P帧预测可以利用至多2帧的前向参考帧,而B帧采用前后各1个参考帧,P帧与B帧(包括后向参考帧)的参考帧数相同,其参考帧存储空间与数据存取的开销均不多于传统视频编码。另外,AVS中B帧的双向预测的多种模式的设定,也有效的节省了运动矢量的编码开销。视觉特性表明,人眼对活动图像中的静止部分和运动部分有着不同的分辨率要求,即对静止部分有较高的空间分辨力和较低的时间分辨力,而对运动部分有着较低的空间分辨力和较高的时间分辨力。因此可以将图像分割成静止部分和运动部分分别进行处理。对于静止部分可以重复上一帧的数据,对于运动部分则需设法测定其位移量,以位移量来预测其运动,并将运动信息发送给接收端,以压缩运动部分的数据量,构成完整的图像,称为图像帧间编码中的运动补偿预测。运动补偿的方法是跟踪画面内的运动情况对其加以预测以后再加以补偿。这项技术的关键是运动矢量计算。通常的方法是采用块匹配法。运动估计和补偿是活动图像编码和计算机视觉领域的一项关键技术。能够对视频序列进行帧间编码主要有两个方面的依据:首先,从信源的角度看,自然景物大多处于相对不变或缓变状态,且其运动状态必然是连续的,这是帧间相关性存在的前提条件。其次,在用摄像机摄取图像时,根据不同场合的需要有不同的取景方式,这样帧间相关性表现的形式也不相同。目前视频编码中考虑的主要是一些简单形式。帧间预测考虑的典型情况是头肩序列,例如可视电话图像,图像的内容通常是在一个细节不十分复杂的背景前,一个活动量不大的单人图像。假定人的位置在第K帧与第K-1帧相比有一定的位移,可以将画面分成3个各具特点的区域:1.背景区:这部分图像一般是静止的,前后两帧的绝大部分数据相同,有着极强的相关性,且只是对人物起陪衬作用。2.运动物体区:如将物体看作简单的平面位移,则第K帧和第K-1帧的该部分数据也是几乎相同的,只是位置发生了改变,相关性还是极强的。这部分数据需要运动估计和运动补偿。3.暴露区:这是指运动后所暴露出来的原来被物体盖住的区域。如果有存储器将这些暴露区的数据暂时存储,则再次经遮盖再暴露出来的数据与原来存储的数据也是相同的,还是有强相关性。虽然以上三类区域的相关性是比较理想的划分结果,实际中并无如此严格的划分,但是它们为帧间编码算法提供了重要依据。如果存在场景切换则谈不上帧间相关性。二、结论研究表明,人类视觉对图像中的静止部分有较高的分辨率,必须给予充分的空间(spatial)分辨率,即在传输静止图像或序列图像的静止部分时,要保证较高的水平和垂直分辨率;但与此同时,却可以减少传输帧数,在接收端,依靠帧存储器把未传输的帧补充出来,而按照一定周期传输的数据对帧存储器刷新。因此对传输序列图像而言,可恰当降低时间(temporal)分辨率。另一方面,人的视觉对于序列图像中的运动物体的空间分辨率将随着物体的运动速度的增加而显著降低,摄像器材的灵敏度也会造成运动部分的灵敏度下降。此外,电视监视器的显示器件也有一定的积分模糊效应。这样在传输序列图像中的运动物体时,可以降低这部分图像的清晰度,且这部分图像的运动速度愈高,就可以用更低的图像清晰度进行传输。“AVS标准已经具有了大规模应用商业化推广的条件。”昨日,AVS产业联盟秘书长张伟民透露,在产业化过程中,我国自主研发的数字音视频编码标准AVS得到了中国网通和中国电信两大电信运营商的支持。
记者获悉,10月9日中国网通在大连对使用AVS标准的IPTV系统进行了验收,UT斯达康、中兴通讯、华为以及上海贝尔阿尔卡特四大设备厂商率先过关,试验结果则表明AVS与国际上的最新标准已处于同一档次。张伟民表示,在大连实验的基础之上,中国网通将继续推进AVS标准的商用,与此同时,中国电信也正在进行AVS标准的测试。除了获得电信运营商的支持,AVS标准还在杭州得到了深层次的应用。在试商用过程中,杭州地区基于AVS标准发射的电视节目内容已经有21套,并有望达到25套。
谈及AVS标准在其他领域的发展前景时,张伟民指出,手机电视的传输标准暂时处于扑朔迷离的阶段,而AVS将面临着洋标准H.264的竞争。此外,由于不涉及到兼容、互联互通的问题,AVS在视频监控系统中也应该有很好的应用。
去年3月1日,国家标准委颁布实施AVS音视频编码国家标准,这项自主创新的成果最大的效益是把数字电视产业的专利使用费从2.5美元降到了1元人民币。
三、有关音频编码自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。1、什么是采样率和采样大小(位/bit)?声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。光有频率信息是不够的,我们还必须获得该频率的能量值并量化,用于表示信号强度。量化电平数为2的整数次幂,我们常见的CD位16bit的采样大小,即2的16次方。采样大小相对采样率更难理解,因为要显得抽象点,举个简单例子:假设对一个波进行8次采样,采样点分别对应的能量值分别为A1-A8,但我们只使用2bit的采样大小,结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小,则刚好记录下8个点的所有信息。采样率和采样大小的值越大,记录的波形更接近原始信号。2、有损和无损根据采样率和采样大小可以得知,相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能这样了,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴,是相对PCM编码的。强调编码的相对性的有损和无损,是为了告诉大家,要做到真正的无损是困难的,就像用数字去表达圆周率,不管精度多高,也只是无限接近,而不是真正等于圆周率的值。3、为什么要使用音频压缩技术要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数bps。一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为44.1K×16×2=1411.2Kbps。我们常说128K的MP3,对应的WAV的参数,就是这个1411.2Kbps,这个参数也被称为数据带宽,它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率,即176.4KB/s。这表示存储一秒钟采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的音频信号,需要176.4KB的空间,1分钟则约为10.34M,这对大部分用户是不可接受的,尤其是喜欢在电脑上听音乐的朋友,要降低磁盘占用,只有2种方法,降低采样指标或者压缩。降低指标是不可取的,因此专家们研发了各种压缩方案。由于用途和针对的目标市场不一样,各种音频压缩编码所达到的音质和压缩比都不一样,在后面的文章中我们都会一一提到。有一点是可以肯定的,他们都压缩过。4、频率与采样率的关系采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频的详细。这也是为什么有些音响发烧友指责CD有数码声不够真实的原因,CD的44.1KHz采样也无法保证高频信号被较好记录。要较好的记录高频信号,看来需要更高的采样率,于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率,这是不可取的!这其实对音质没有任何好处,对抓轨软件来说,保持和CD提供的44.1KHz一样的采样率才是最佳音质的保证之一,而不是去提高它。较高的采样率只有相对模拟信号的时候才有用,如果被采样的信号是数字的,请不要去尝试提高采样率。5、流特征随着网络的发展,人们对在线收听音乐提出了要求,因此也要求音频文件能够一边读一边播放,而不需要把这个文件全部读出后然后回放,这样就可以做到不用下载就可以实现收听了。也可以做到一边编码一边播放,正是这种特征,可以实现在线的直播,架设自己的数字广播电台成为了现实。四、各种主流音频编码(或格式)的介绍1、PCM编码PCM脉冲编码调制是PulseCodeModulation的缩写。前面的文字我们提到了PCM大致的工作流程,我们不需要关心PCM最终编码采用的是什么计算方式,我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的AudioCD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。2、WAVE这是一种古老的音频文件格式,由微软开发。WAV是一种文件格式,符合PIFFResourceInterchangeFileFormat规范。所有的WAV都有一个文件头,这个文件头音频流的编码参数。WAV对音频流的编码没有硬性规定,除了PCM之外,还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。很多朋友没有这个概念,我们拿AVI做个示范,因为AVI和WAV在文件结构上是非常相似的,不过AVI多了一个视频流而已。我们接触到的AVI有很多种,因此我们经常需要安装一些Decode才能观看一些AVI,我们接触到比较多的DivX就是一种视频编码,AVI可以采用DivX编码来压缩视频流,当然也可以使用其他的编码压缩。同样,WAV也可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被PCM编码处理的WAV,但这不表示WAV只能使用PCM编码,MP3编码同样也可以运用在WAV中,和AVI一样,只要安装好了相应的Decode,就可以欣赏这些WAV了。在Windows平台下,基于PCM编码的WAV是被支持得最好的音频格式,所有音频软件都能完美支持,由于本身可以达到较高的音质的要求,因此,WAV也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于PCM编码的WAV被作为了一种中介的格式,常常使用在其他编码的相互转换之中,例如MP3转换成WMA。3、MP3编码据说MP3的由来是由德国某工作室在研究如何抓取CD音轨时衍生出的计算机文件格式。MP3本身是一种压缩与解压缩的计算方式,用来处理高比率的声音信息。它所生成的声音文件音质接近CD,而文件大小却只有其十二分之一。MP3是MPEG1Layer3的缩写,也就是MPEG-1AudioLayer-3的缩写。而MPEG这名词的含义是动态影像压缩,它是MovingPictureExp-ertsGroup的缩写。我们所了解的VCD就是使用MPEG-1技术,而DVD则是使用更进一步MPEG-2的技术。MP3是MPEG里的一项技术分支,主要用来压缩声音。一共分三个等级(Layer),分别是Layer-1(MP1),Layer-2(MP2)和Layer-3(MP3)。MP3是利用MPEGAudioLayer3的技术,将声音用1:10甚至1:12的压缩率,变成容量较小的文件。以一张光碟容量为650M为例,若以CD格式,它只能容纳最多74分钟的音乐;如果做成MP3格式,一张光碟就能放一百多首歌曲。由于MP3的体积小,音质有非常接近CD,所以在国际互联网上很快流行起来,也成为个人电脑上重要的音频格式。由于人耳只能听到一定频段内的声音,因此在人耳听起来,MP3与CD却没有什么不同。当然,MP3一种失真压缩,就像图形文件JPG一样,因为失真压缩,所以可以压得很多,也可以调整压缩比率,压得越多失真也越多。从技术层面来看,MP3是一种音频压缩技术的简称。由于这种压缩方式的全称叫MPEGAUDIOLAYER3,所以人们把它简称为MP3。MP3的音频压缩基于这样一种考虑:因为人耳只能听到一定频段内的声音,而其他更高或更低频率的声音对人耳是没有用处的,所以MP3技术就把这部分声音去掉了,从而使得文件体积大为缩小,但在人耳听起来,却并没有什么失真。??MP3可以将声音用1∶10~1∶12的压缩率进行压缩。以一张光碟容量为650M为例,若以CD格式,它只能容纳最多74分钟的音乐;如果做成MP3格式,一张光碟就能放一百多首歌曲。由于MP3的体积小,音质有非常接近CD,所以在国际互联网上很快流行起来,也成为个人电脑上重要的音频格式。??同时,MP3格式音乐的流行也带动了MP3专用播放装置的出现,并在近年来得到快速发展。目前市场上流行的MP3设备从功能和性能上已经远远超出了原来"播放器"的范畴,逐步发展成为集音频播放(包括MP3之外的音乐格式)、录音复读、文本阅读、移动存储、FM收音等功能为一体的多媒体掌上设备。有的高端MP3设备甚至还集成了音频编辑处理、电影播放等功能。MP3的优点由于大大压缩了文件的体积,所以相同的空间能存储更多的信息。由于没有机械元件,全部是电子元件,所以不存在防震问题,更加适合运动时欣赏音乐。另外,MP3可以随心所欲的进行音频编辑处理,编辑自己喜爱的歌。MP3的缺点MP3音频压缩技术是一种失真压缩,因为人耳只能听到一定频段内的声音,而其他更高或更低频率的声音对人耳是没有用处的,所以MP3技术就把这部分声音去掉了,从而使得文件体积大为缩小。虽然听上去MP3音乐仍旧具有接近CD的音质,但毕竟要比CD稍逊一些。4、OGG编码网络上出现了一种叫OggVorbis的音频编码,号称MP3杀手!OggVorbis究竟什么来头呢?OGG是一个庞大的多媒体开发计划的项目名称,将涉及视频音频等方面的编码开发。整个OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案!OGG的信念就是:OPEN!FREE!Vorbis这个词汇是特里?普拉特柴特的幻想小说《SmallGods》中的一个"花花公子"人物名。这个词汇成为了OGG项目中音频编码的正式命名。目前Vorbis已经开发成功,并且开发出了编码器。OggVorbis是高质量的音频编码方案,官方数据显示:OggVorbis可以在相对较低的数据速率下实现比MP3更好的音质!OggVorbis这种编码也远比90年代开发成功的MP3先进,她可以支持多声道,这意味着什么?这意味着OggVorbis在SACD、DTSCD、DVDAUDIO抓轨软件(目前这种软件还没有)的支持下,可以对所有的声道进行编码,而不是MP3只能编码2个声道。多声道音乐的兴起,给音乐欣赏带来了革命性的变化,尤其在欣赏交响时,会带来更多临场感。这场革命性的变化是MP3无法适应的。和MP3一样,OggVorbis是一种灵活开放的音频编码,能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。因此,它的声音质量将会越来越好,和MP3相似,OggVorbis更像一个音频编码框架,可以不断导入新技术逐步完善。和MP3一样,OGG也支持VBR。5、MPC编码MPC又是另外一个令人刮目相看的实力派选手,它的普及过程非常低调,也没有什么复杂的背景故事,她的出现目的就只有一个,更小的体积更好的音质!MPC以前被称作MP+,很显然,可以看出她针对的竞争对手是谁。但是,只要用过这种编码的人都会有个深刻的印象,就是她出众的音质。6、mp3PRO编码2001年6月14日,美国汤姆森多媒体公司(ThomsonMultimediaSA)与佛朗赫弗协会(FraunhoferInstitute)于6月14日发布了一种新的音乐格式版本,名称为mp3PRO,这是一种基于mp3编码技术的改良方案,从官方公布的特征看来确实相当吸引人。从各方面的资料显示,mp3PRO并不是一种全新的格式,完全是基于传统mp3编码技术的一种改良,本身最大的技术亮点就在于SBR(SpectralBandReplication频段复制),这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码,与传统的编码技术不同的是,SBR更像是一种后处理技术,因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器(播放器)产生的,SBR编码的数据更像是一种产生高频的命令集,或者称为指导性的信号源,这有点駇idi的工作方式。我们可以看到,mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。有关资料显示,SBR技术可以改善低数据流量下的高频音质,改善程度约为30%,我们不管这个30%是如何得来的,但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平(注:在相同的编码条件下,数据速率的提升和音质的提升不是成正比的,至少人耳听觉上是这样的),这和官方声称的64kbps的mp3PRO可以媲美128kbps的mp3的宣传基本是吻合的。7、WMAWMA就是WindowsMediaAudio编码后的文件格式,由微软开发,WMA针对的不是单机市场,是网络!竞争对手就是网络媒体市场中著名的RealNetworks。微软声称,在只有64kbps的码率情况下,WMA可以达到接近CD的音质。和以往的编码不同,WMA支持防复制功能,她支持通过WindowsMediaRightsManager加入保护,可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术,即一边读一边播放,因此WMA可以很轻松的实现在线广播,由于是微软的杰作,因此,微软在Windows中加入了对WMA的支持,WMA有着优秀的技术特征,在微软的大力推广下,这种格式被越来越多的人所接受。8、RARA就是RealAudio格式,这是各位网虫接触得非常多的一种格式,大部分音乐网站的在线试听都是采用了RealAudio,这种格式完全针对的就是网络上的媒体市场,支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率,在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码,包括ATRAC3。和WMA一样,RA不但都支持边读边放,也同样支持使用特殊协议来隐匿文件的真实网络地址,从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要,在各方的大力推广下,RA和WMA是目前互联网上,用于在线试听最多的音频媒体格式。9、APEAPE是Monkey''sAudio提供的一种无损压缩格式。Monkey''sAudio提供了Winamp的插件支持,因此这就意味着压缩后的文件不再是单纯的压缩格式,而是和MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式,但能够做到真正无损,因此获得了不少发烧用户的青睐。在现有不少无损压缩方案种,APE是一种有着突出性能的格式,令人满意的压缩比以及飞快的压缩速度,成为了不少朋友私下交流发烧音乐的唯一选择。
-13-
|
|