PESQ (Perceptual Evaluation of Speech Quality)
PESQ是一个国际电信联盟(ITU)标准化的评价方法(ITU-T P.862),用于自动评估语音通话的音质。PESQ通过模拟人类听觉系统的工作原理来评估语音样本的质量,输出的评分范围从-0.5到4.5,分数越高表示语音质量越好。PESQ常用于评估语音编码器、语音传输质量以及语音增强算法的性能。
ESTOI (Extended Short-Time Objective Intelligibility)
ESTOI是一种语音可理解性的客观评估方法,旨在预测语音信号被听众理解的程度。与传统的STOI(Short-Time Objective Intelligibility)相比,ESTOI对于非平稳噪声环境下的语音有更好的预测性能。它通过比较干净(未受干扰)语音和处理后语音的短时统计特性来工作,输出的评分范围是0到1,分数越高表示可理解性越好。
WV-MOS (Weighted Voice Quality Model Output Score)
WV-MOS是一种基于模型的语音质量评估指标,它结合了多个不同的信号特征和质量维度,旨在提供一个综合的语音质量评分。WV-MOS考虑了包括信噪比、频率响应和其他失真在内的因素,以输出一个反映总体语音质量的分数。分数范围通常是1到5,分数越高表示语音质量越好。
SI-SDR (Scale-Invariant Signal-to-Distortion Ratio)
SI-SDR是评估语音增强或语音分离算法性能的一种指标,专注于信号到失真比的度量,但通过一种与尺度无关的方式来实现。这使得SI-SDR成为一个鲁棒的性能评价指标,特别是在处理具有不同增益或音量级别的语音信号时。SI-SDR的高值表示较低的失真率,即增强语音的质量更高。
SI-SIR (Scale-Invariant Signal-to-Interference Ratio)
SI-SIR是衡量语音信号与干扰信号之间比例的指标,特别用于语音分离任务。它量化了分离出的目标语音与背景噪声或其他干扰之间的比率,从而评估分离效果的好坏。类似于SI-SDR,SI-SIR也是与尺度无关的,能够适应不同的信号强度。
SI-SAR (Scale-Invariant Signal-to-Artifacts Ratio)
SI-SAR衡量的是语音信号相对于处理过程中引入的伪影(或人为失真)的比例。这是评估语音增强或分离算法中引入伪影程度的一个重要指标。较高的SI-SAR值表明伪影较少,即处理后的语音质量较好。