信噪比(SNR)有用信号功率与噪声功率的比(此处功率为平均功率),也等于幅度比的平方 SNR(dB)=10log10∑N−1n=0s2(n)∑N−1n=0d2(n)=10∗log10(PsignalPnoise)=20∗log10(AsignalAnoise)SNR(dB)=10log10∑n=0N−1s2(n)∑n=0N−1d2(n)=10∗log10(PsignalPnoise)=20∗log10(AsignalAnoise) SNR(dB)=10log10∑N−1n=0s2(n)∑N−1n=0[x(n)−s(n)2]SNR(dB)=10log10∑n=0N−1s2(n)∑n=0N−1[x(n)−s(n)2] 其中:PsignalPsignal为信号功率(平均功率或者实际功率);PnoisePnoise为噪声功率;AsignalAsignal为信号幅度;AnoiseAnoise为噪声幅度值,功率等于幅度值的平方 MATLAB版本代码 # 信号与噪声长度应该一样function snr=SNR_singlech(Signal,Noise) P_signal = sum(Signal-mean(Signal)).^2; # 信号的能量P_noise = sum(Noise-mean(Noise)).^2; # 噪声的能量snr = 10 * log10(P_signal/P_noise) tensorflow版本SNR def tf_compute_snr(labels, logits): # labels和logits都是三维数组 (batch_size, wav_data, 1) signal = tf.reduce_mean(labels ** 2, axis=[1, 2]) noise = tf.reduce_mean((logits - labels) ** 2, axis=[1, 2]) noise = tf.reduce_mean((logits - labels) ** 2 + 1e-6, axis=[1, 2]) snr = 10 * tf.log(signal / noise) / tf.log(10.) # snr = 10 * tf.log(signal / noise + 1e-8) / tf.log(10.) snr = tf.reduce_mean(snr, axis=0) return snr ![]() 批注:这里的1e-6和1e-8,目的是为了防止出现Nan值,如果没有这个需求可以去除 numpy版本代码 def numpy_SNR(labels, logits): # origianl_waveform和target_waveform都是一维数组 (seq_len, ) # np.sum实际功率;np.mean平均功率,二者结果一样 signal = np.sum(labels ** 2) noise = np.sum((labels - logits) ** 2) snr = 10 * np.log10(signal / noise) return snr 峰值信噪比(PSNR)表示信号的最大瞬时功率和噪声功率的比值,最大瞬时功率为语音数据中最大值得平方。 SNR(dB)=10log10MAX[s(n)]21N∑N−1n=0[x(n)−s(n)]2=20log10MAX[s(n)]MSE−−−−−√SNR(dB)=10log10MAX[s(n)]21N∑n=0N−1[x(n)−s(n)]2=20log10MAX[s(n)]MSE def psnr(label, logits): MAX = np.max(label) ** 2 # 信号的最大平时功率 MSE = np.mean((label - logits) ** 2) return np.log10(MAX / MSE) 分段信噪比(SegSNR)由于语音信号是一种缓慢变化的短时平稳信号,因而在不同时间段上的信噪比也应不一样。为了改善上面的问题,可以采用分段信噪比。分段信噪比即是先对语音进行分帧,然后对每一帧语音求信噪比,最好求均值。 MATLAB版本的代码 ![]() python代码 def SegSNR(ref_wav, in_wav, windowsize, shift): if len(ref_wav) == len(in_wav): pass else: print('音频的长度不相等!') minlenth = min(len(ref_wav), len(in_wav)) ref_wav = ref_wav[: minlenth] in_wav = in_wav[: minlenth] # 每帧语音中有重叠部分,除了重叠部分都是帧移,overlap=windowsize-shift # num_frame = (len(ref_wav)-overlap) // shift # = (len(ref_wav)-windowsize+shift) // shift num_frame = (len(ref_wav) - windowsize + shift) // shift # 计算帧的数量 SegSNR = np.zeros(num_frame) # 计算每一帧的信噪比 for i in range(num_frame): noise_frame_energy = np.sum(ref_wav[i * shift: i * shift + windowsize] ** 2) # 每一帧噪声的功率 speech_frame_energy = np.sum(in_wav[i * shift: i * shift + windowsize] ** 2) # 每一帧信号的功率 SegSNR[i] = np.log10(speech_frame_energy / noise_frame_energy) return 10 * np.mean(SegSNR) 信号回声比 (Signal to echo ratio, SER)SER=10log10E{s2(n)}E{d2(n)}SER=10log10E{s2(n)}E{d2(n)} 其中E是统计 期望操作,s(n)s(n)是近端语音,d(n)d(n)是远端回声 def SER(near_speech, far_echo): """signal to echo ratio, 信号回声比 :param near_speech: 近端语音 :param far_echo: 远端回声 """ return 10*np.log10(np.mean(near_speech**2)/np.mean(far_echo**2)) 回声损失增强 (Echo Return Loss Enhancement, ERLE)回波损失增强度量(ERLE)通常用于评估系统在没有近端信号的单通话情况下 的回声减少。ERLE的定义是 ERLE(dB)=10log10E{y2(n)}E{s^2(n)}ERLE(dB)=10log10E{y2(n)}E{s^2(n)} 其中E是统计 期望操作,y(n)y(n)是麦克风信号,s^(n)s^(n)是估计的近端语音信号。 def compute_ERLE(mic_wav, predict_near_end_wav): """ :param mic_wav: 麦克风信号(y) = 近端语音(s) + 远端语音回声(s) + 噪声(v) :param predict_near_end_wav: 估计的近端语音信号 \hat{s} 麦克风信号 """ mic_mear = np.mean(mic_wav**2) predict_near_end_wav = np.mean(predict_near_end_wav**2) ERLE = 10 * np.log10(mic_mear/predict_near_end_wav) return ERLE 为了评估系统在双讲情况下的性能,通常采用PESQ (语音质量感知评价)或STOI (短时语音可懂度),他是通过将估计的近端语音和仅在双讲通话期间真实的近端语音进行比较得到的。PESQ评分范围为-0.5 ~ 4.5,分数越高质量越好。STOI评分范围为0~1,分数越高越好。 对数拟然对比度 (log Likelihood Ratio Measure)坂仓距离测度是通过语音信号的线性预测分析来实现的。ISD基于两组线性预测参数(分别从原纯净语音和处理过的语音的同步帧得到)之间的差异。LLR可以看成一种坂仓距离(Itakura Distance,IS)但是IS距离需要考虑模型增益。而LLR不需要考虑模型争议引起的幅度位移,更重视整体谱包络的相似度。 语音质量感知评估 (Perceptual Evaluation of Speech Quality, PESQ)ITU-T的全系列参考目标语音质量测量系列
PESQ算法需要带噪的衰减信号和一个原始的参考信号。开始时将两个待比较的语音信号经过电平调整、输入滤波器滤波、时间对准和补偿、听觉变换之后,分别提取两路信号的参数,综合其时频特性,得到PESQ分数,最终将这个分数映射到主观平均意见分(MOS)。PESQ得分范围在-0.5--4.5之间。得分越高表示语音质量越好。 ITU提供了C语言代码,下载请点击这里,但是在使用之前我们需要先编译C脚本,生成可执行文件exe 编译方式为:在命令行进入下载好的文件
经过编译,会在当前文件夹生成一个pesq.exe的可执行文件 使用方式为:
感知客观语音质量评估(POLQA)POLQA是PESQ的继承者(ITU-T P.862建议书)。POLQA避免了当前P.862型号的弱点,并且扩展到处理更高带宽的音频信号。进一步的改进针对具有许多延迟变化的称为信号和信号的时间的处理。与P.862类似,POLQA支持普通电话频段(300-3400 Hz)的测量,但此外它还具有第二种操作模式,用于评估宽带和超宽带语音信号中的HD-Voice(50-14000)赫兹)。 POLQA是全参考算法,并且在对应的参考和测试信号的摘录的时间对准之后逐个样本地分析语音信号。POLQA可用于为网络提供端到端(E2E)质量评估,或表征各个网络组件。 POLQA结果主要是模型平均意见得分(MOS),涵盖从1(差)到5(优秀)的范围。 对数谱距离(LSD)对数谱距离Log Spectral Distance,LSD是两个频谱之间的距离度量。也称为“对数谱失真” LSD=1M∑m=0M{1L∑i=0L[10log10|s(l,m)|2−10log10|s^(l,m)|2]}−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−⎷LSD=1M∑m=0M{1L∑i=0L[10log10|s(l,m)|2−10log10|s^(l,m)|2]} 式中,ll和mm分别为频率索引和帧索引,MM为语音帧数,LL为频点数,S^(l,m)S^(l,m)和S(l,m)S(l,m)分别为估计音频和宽带音频经过短时短时傅里叶变换后的频谱。 numpy版本 # 方法一def numpy_LSD(labels, logits): """ labels 和 logits 是一维数据 (seq_len,)""" labels_spectrogram = librosa.stft(labels, n_fft=2048) # (1 + n_fft/2, n_frames) logits_spectrogram = librosa.stft(logits, n_fft=2048) # (1 + n_fft/2, n_frames) labels_log = np.log10(np.abs(labels_spectrogram) ** 2) logits_log = np.log10(np.abs(logits_spectrogram) ** 2) # 先处理频率维度 lsd = np.mean(np.sqrt(np.mean((labels_log - logits_log) ** 2, axis=0))) return lsd# 方法二def get_power(x): S = librosa.stft(x, n_fft=2048) # (1 + n_fft/2, n_frames) S = np.log10(np.abs(S) ** 2) return Sdef compute_log_distortion(labels, logits): """labels和logits数据维度为 (batch_size, seq_len, 1)""" avg_lsd = 0 batch_size = labels.shape[0] for i in range(batch_size): S1 = get_power(labels[i].flatten()) S2 = get_power(logits[i].flatten()) # 先处理频率轴,后处理时间轴 lsd = np.mean(np.sqrt(np.mean((S1 - S2) ** 2, axis=0)), axis=0) avg_lsd += lsd return avg_lsd / batch_size tensorflow版本 def get_power(x): x = tf.squeeze(x, axis=2) # 去掉位置索引为2维数为1的维度 (batch_size, input_size) S = tf.signal.stft(x, frame_length=2048, frame_step=512, fft_length=2048, window_fn=tf.signal.hann_window) # [..., frames, fft_unique_bins] S = tf.log(tf.abs(S) ** 2) / tf.log(10.) # S = tf.log(tf.abs(S) ** 2 + 9.677e-9) / tf.log(10.) return Sdef tf_compute_log_distortion(labels, logits): """labels和logits都是三维数组 (batch_size, input_size, 1)""" S1 = get_power(labels) # [..., frames, fft_unique_bins] S2 = get_power(logits) # [..., frames, fft_unique_bins] # 先处理频率维度,后处理时间维度 lsd = tf.reduce_mean(tf.sqrt(tf.reduce_mean((S1 - S2) ** 2, axis=2)), axis=1) lsd = tf.reduce_mean(lsd, axis=0) return lsd 但如果想要numpy版本的值和tensorflow版本的值一样,可以使用下面的代码 ![]() 批注:librosa.stft中center设为False,和np.log10中加1e-8,目的是为了最终的值和tensorflow版本的lsd值相近,如果没有这个需求可以去除。这里tf.log中加9.677e-9是为了和numpy中的值相近,如果没有这个需求可以去除 短时客观可懂度(STOI)下载一个 pystoi 库:pip install pystoi STOI 反映人类的听觉感知系统对语音可懂度的客观评价,STOI 值介于0~1 之间,值越大代表语音可懂度越高,越清晰。 from pystoi import stoi stoi_score = stoi(label, logits, fs_sig=16000) 加权谱倾斜测度(WSS)WSS值越小说明扭曲越少,越小越好,范围 参考文献度量方法仓库 https://github.com/schmiph2/pysepm 作者:凌逆战 |
|
来自: LibraryPKU > 《科学计算》