分享

音视频学习—音视频理论基础(3)

 李清龙1023 2023-11-19 发布于安徽

1、音频处理技术

音频处理中的几个技术包括噪声抑制、回声消除、自动增益控制、静音检测和舒适噪声产生。这些技术用于改善音频的质量和用户体验。
噪声抑制是针对采集到的音频中的背景噪声进行处理,以提高音频的压缩效率和清晰度。常见的噪声抑制算法包括Google开源框架Webrtc中的算法和开源项目Speex中的算法。

WebRTC(Web Real-Time Communication)提供了用于实时通信的音视频传输和处理的技术和API。它包括了一系列的音视频处理算法和实现,可以用于构建基于Web的实时通信应用,如音频/视频通话、音视频会议等。

Speex专门用于语音通信。它提供了高度压缩的音频编码和解码功能,适用于低带宽和高延迟的网络环境。Speex还包含了一些音频处理算法,如噪声抑制、回声消除等,用于提高语音通信的质量和效果。

回声消除用于处理音视频通话中的回声问题。当本地声音传输到对端播放后,会被对端的麦克风采集并与对端的声音一起传输回本地,导致听到自己的回声。Webrtc中提供了回声抑制模块,建议移动设备采用AECM算法。

AECM(Acoustic Echo Canceller Mobile)算法是WebRTC中的一种回声抑制算法,专门设计用于移动设备。它通过对音频信号进行分析和处理,从回声信号中提取出原始信号,以消除回声的影响。AECM算法具有较低的运算量,适用于移动设备的资源限制环境下使用。

自动增益控制用于调节音频的响度,使得输出的声音适宜人耳的感受。根据预先配置的参数,自动增益控制算法对输入声音进行正向或负向调节。

静音检测是根据音频的功率谱密度来判断是否为静音。功率谱密度小于阈值时被认为是静音,广泛应用于音频编码、自动增益控制和回声消除等领域。

静音检测在音频编码中通常用于优化编码效率。在音频编码中,只有当有声音存在时才需要进行编码和传输,而对于静音部分则可以省略编码和传输,以减少带宽和资源的消耗。静音检测可以帮助判断音频信号是否为静音,从而实现对音频流的动态编码和传输,提高音频编码的效率。此外,静音检测还可以应用于自动增益控制(AGC)和回声消除(AEC)等音频处理算法中,以识别静音段和非静音段,从而进行相应的处理和调节。

舒适噪声产生是根据噪声的功率谱密度构造人为的噪声,通常用于音频编解码器。在编码端计算静音时的白噪声功率谱密度,并将静音时段和功率谱密度信息进行编码。在解码端,根据时间信息和功率谱密度信息,重建随机白噪声。这样可以在完全静音时添加随机白噪声,创造舒适的通话体验。

2、音频采集来源(设备)

麦克风(Microphone):麦克风是最常见的音频采集设备,用于将声音转换成电信号。麦克风通过感应声波振动并将其转化为电流或电压变化,进而生成音频信号。

电话线路(Telephone Line):在电话通信中,音频信号通过电话线路传输。电话线路中的音频信号是通过话筒或麦克风采集的,然后经过编码和调制处理,通过线路传输到接收端。

外部设备(External Devices):音频信号还可以来自各种外部设备,例如音乐播放器、录音设备、电子乐器等。这些设备通过接口(如音频插孔、USB等)将音频信号传输到计算机或其他设备中进行采集和处理。

音频接口设备(Audio Interface):这些设备通常用于连接专业音频设备(如调音台、音频接口盒等)与计算机,以便进行音频采集和处理。音频接口设备提供了更高质量的音频输入和输出,适用于音乐制作、录音室等专业领域。

USB麦克风(USB Microphone):USB麦克风是一种具有内置模数转换器(ADC)和USB接口的麦克风,可以直接连接到计算机进行音频采集。这种设备简单易用,适合于个人使用、网络会议、语音识别等应用。

无线话筒(Wireless Microphone):无线话筒通过无线信号传输音频信号,消除了传统有线连接的限制。它常用于舞台表演、演讲、讲座等场合,提供了更大的灵活性和便捷性。

选择音频采集设备时,需要考虑以下要素:

应用需求:确定采集设备的使用场景和目的,例如是用于音乐制作、语音通信还是录音等。不同的应用需求可能对设备的音频质量、灵活性、便携性等有不同的要求。

音频质量:考虑所需音频的质量水平。如果需要高保真度的音频,可能需要选择高质量的麦克风和音频接口设备。低质量的音频采集设备可能会导致噪音、失真或频率响应不准确等问题。

信噪比(Signal-to-Noise Ratio,SNR):信噪比是指所采集音频中有用信号与噪声之间的相对比例。更高的信噪比表示更清晰的音频质量。选择具有较高信噪比的设备可以减少噪声干扰,提高音频质量。

适应环境:考虑采集设备在特定环境中的适应性,例如噪音环境、远距离采集等。某些设备可能具有降噪功能或适用于特定环境的麦克风类型,以提供最佳的采集效果。

可用接口:确保采集设备与您的计算机或其他设备兼容,并具有所需的接口类型(如USB、XLR等)。这将确保设备能够与您的系统进行连接和正常工作。

3、音频采样计算

音频信号的计算主要涉及以下几个方面:

  1. 采样率(Sample Rate):采样率表示每秒钟对音频信号进行采样的次数,单位为赫兹(Hz)。常见的采样率有44.1 kHz、48 kHz等。采样率越高,能够更准确地还原原始音频信号。
  2. 量化位数(Quantization Bit Depth):量化位数表示对音频信号的每个采样值进行量化的位数。常见的量化位数有16位、24位等。较高的量化位数可以提供更高的动态范围和更精确的音频表示。
  3. 声道数(Number of Channels):声道数表示音频信号的通道数量,常见的有单声道(Mono)和立体声(Stereo)。立体声通常包括左声道(Left Channel)和右声道(Right Channel),可以提供更丰富的音频体验。

通过以上参数,可以计算出音频采样的数据量。例如,对于一个采样率为44.1 kHz、量化位数为16位、立体声的音频信号,每秒钟采样的数据量为44,100 x 16 x 2(声道数)位。

采样率和量化位数的取值范围通常有以下常见选项:

采样率(Sample Rate):常见的取值范围包括44.1 kHz、48 kHz、96 kHz等。更高的采样率可以提供更准确的音频还原,但也会增加数据量和处理需求。

量化位数(Quantization Bit Depth):常见的取值范围包括16位、24位、32位浮点等。较高的量化位数可以提供更大的动态范围和更准确的声音表示,但也会增加数据量和计算复杂度。

声道数的选择会影响音频的空间定位和声音分离。常见的声道数包括:

单声道(Mono):单声道音频只有一个声道,音频信号在左右扬声器上播放时声音一样。适用于语音通信、简单录音等场景。

立体声(Stereo):立体声音频包括左声道(Left Channel)和右声道(Right Channel),可以提供更丰富的音频体验和左右声源的定位。适用于音乐播放、电影等场景。

多声道(Multi-channel):多声道音频可以包括更多的声道,如环绕声(5.1声道、7.1声道等)。多声道音频适用于家庭影院、游戏等需要具备空间声音效果的场景。

声道数的选择需要根据具体应用需求和系统支持来决定。单声道适用于简单应用,而立体声和多声道可以提供更丰富的音频体验和环绕感。

4、常见音频格式

  1. WAV格式:WAV是微软公司开发的一种声音文件格式,也被称为波形声音文件。它是最早的数字音频格式之一,广泛支持于Windows平台及其应用程序,但压缩率较低。

  2. MIDI格式:MIDI是Musical Instrument Digital Interface的缩写,又称为乐器数字接口。它是数字音乐/电子合成乐器的国际标准。MIDI定义了计算机音乐程序、数字合成器和其他电子设备交换音乐信号的方式。MIDI文件存储的是一些指令,通过这些指令发送给声卡,声卡按照指令合成音乐。

  3. MP3格式:MP3是MPEG-1 Audio Layer 3的缩写,它是一种高音质、低采样率的数字音频文件压缩格式。MP3应用广泛,是最常见的音频格式之一。

  4. MP3Pro格式:MP3Pro是由瑞典Coding科技公司开发的一种音频格式。它包含了Coding科技公司特有的解码技术以及由MP3的专利持有者法国汤姆森多媒体公司和德国Fraunhofer集成电路协会共同研究的一种译码技术。MP3Pro在不改变文件大小的情况下改善了原先MP3的音质,能够在较低的比特率下有效地压缩音频文件。

  5. WMA格式:WMA(Windows Media Audio)是微软开发的一种音频格式,主要用于互联网音频和视频领域。WMA采用一种减少数据流量但保持音质的方法,以实现更高的压缩率。此外,WMA还可以通过数字版权管理(DRM)保护版权。

  6. RealAudio格式:RealAudio是Real Networks公司推出的一种音频文件格式。它的最大特点是可以实时传输音频信息,尤其适用于网速较慢的情况下流畅地传送数据。RealAudio有多种文件格式,如RA(RealAudio)、RM(RealMedia,RealAudio G2)和RMX(RealAudio Secured)。这些文件格式根据网络带宽的不同改变声音的质量,以保证大多数听众都能获得流畅的声音。

  7. Audible格式:Audible拥有四种不同的格式,分别为Audible 1、2、3、4。Audible.com是一个在线销售有声书籍的网站,对其销售的商品和文件采用了这四种Audible.com专用音频格式之一进行保护。每种格式考虑到音频源和使用的播放设备的不同。Audible使用自己的桌面播放工具Audible Manager来播放存储在电脑上或传输到便携式播放器上的Audible格式文件。

  8. AAC格式:AAC是Advanced Audio Coding的缩写,是由Fraunhofer IIS-A、杜比和AT&T共同开发的一种音频格式。AAC是MPEG-2规范的一部分。AAC采用与MP3不同的算法来提高编码效率,支持多个音轨、低频音轨、多种采样率和比特率,并具有更高的解码效率。总体而言,AAC在与相同比特率的MP3文件相比提供更好的音质的前提下,可以缩小文件大小约30%。

  9. Ogg Vorbis格式:Ogg Vorbis是一种新的音频压缩格式,类似于MP3等现有的音乐格式。不同的常见的音频格式有以下几种:

  10. WAV格式:WAV是微软公司开发的一种无损音频文件格式,也被称为波形音频文件。它以高质量保留音频数据,但文件相对较大。

  11. MP3格式:MP3是一种有损音频格式,通过压缩音频数据来减小文件大小。它是目前最常见和广泛支持的音频格式之一。

  12. AAC格式:AAC是Advanced Audio Coding的缩写,是一种有损音频编码格式。它通常比MP3格式提供更好的音质,同时具有更高的压缩效率。

  13. FLAC格式:FLAC是一种无损音频编码格式,全称为Free Lossless Audio Codec。它可以压缩音频数据,同时保留原始音频质量,但文件大小相对较大。

  14. Ogg Vorbis格式:Ogg Vorbis是一种开放的无损音频编码格式,提供高质量的音频压缩,并支持元数据和流式传输。

  15. WMA格式:WMA是Windows Media Audio的缩写,是微软开发的一种音频格式。它通常用于Windows平台,具有较高的音频质量和较高的压缩效率。

  16. AIFF格式:AIFF是音频交换文件格式(Audio Interchange File Format)的缩写,是一种无损音频文件格式,常用于Mac OS平台。

  17. ALAC格式:ALAC是Apple Lossless Audio Codec的缩写,是苹果公司开发的一种无损音频编码格式。它可以将音频数据压缩,同时保留原始音频质量,适用于苹果设备和平台。

  18. ......

5、混音技术

混音技术是将两路或多路音频流合并在一起生成一路音频流的过程。而混流是指将音频和视频流进行合并,使得视频画面和声音保持同步。然而,并非所有的音频流都可以直接进行混合。

以下是混合音频流的必要条件:

  1. 格式相同:两个音频流必须具有相同的格式,并且需要将其解压成PCM格式。

  2. 采样率相同:两个音频流的采样率必须相同,如果不同,则需要将其转换成相同的采样率。常见的采样率包括16kHz、32kHz、44.1kHz和48kHz。

  3. 帧长相同:帧长由编码格式决定,对于PCM格式而言,可以自由选择帧长。为了与主流音频编码格式保持一致,推荐使用20毫秒作为帧长。

  4. 位深或采样格式相同:每个采样点的数据位数必须相同。

  5. 声道数相同:两个音频流的声道数必须相同,可以是单声道或立体声。

在进行混音之前,通常还需要进行回声消除、噪音抑制和静音检测等处理。回声消除和噪音抑制属于语音前处理的范畴。在采集音频、语音前处理、混音前处理、混音和混音后处理的流程中,可以选择是否进行静音检测(VAD,Voice Activity Detection)。

对于终端混音来说,通常是将主播的声音与伴奏音乐混合在一起。如果主播在一段时间内没有发声,可以根据VAD检测结果选择直接使用伴奏音乐数据而不进行混音,或者在主播没有发声的时候继续进行混音(主播的声音振幅为零)。

此外,音频重采样也是混音过程中常用的技术。重采样是指对音频进行重新采样,以获得新的采样率。重采样的原因是音频系统中可能存在多个音轨,而每个音轨的原始采样率可能不一致。为了确保所有音轨听起来都不失真,可以将所有音轨重采样为固定的采样率,然后再进行混音和输出。

回声消除是在实时语音通信中常用的处理技术。在使用外部扬声器进行播放时,会产生回声现象,即一方说话后,声音通过对方的扬声器放出,然后再被对方的麦克风采集,回传给自己。如果不对回声进行处理,会影响通话质量和用户体验,甚至引发啸叫现象。回声消除的目标是从麦克风采集的声音数据中消除本地扬声器播放的声音,使得麦克风采集到的声音只包含本地用户的说话声音。

传统的回声消除通常采用硬件方式,在硬件电路中集成DSP处理芯片。而软件方式实现回声消除一直存在技术难题。回声消除已经成为实现全双工语音通信的标准方法,在即时通讯应用中得到广泛应用。

混音技术在音频处理中有许多应用。以下是一些常见的应用场景:

音乐制作:在音乐制作过程中,混音技术用于将多个音轨混合在一起,调整音量平衡,增加空间感和立体声效果,以及添加各种音效和处理。

语音通信:在语音通信中,混音技术用于将多个参与者的语音混合在一起,实现多方通话或会议功能。

广播和电视:在广播和电视领域,混音技术用于将不同来源的音频流混合,比如主播的声音、背景音乐、音效等。

录音室和演播室:混音技术在录音室和演播室中广泛应用,用于后期制作、音频修复和效果处理。

媒体制作:在影视制作和游戏开发中,混音技术用于将音频素材进行混合和处理,以创造出逼真的环境音效和音乐效果。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多