语音增强算法的评价指标

PESQ (Perceptual Evaluation of Speech Quality)

PESQ是一个国际电信联盟（ITU）标准化的评价方法（ITU-T P.862），用于自动评估语音通话的音质。PESQ通过模拟人类听觉系统的工作原理来评估语音样本的质量，输出的评分范围从-0.5到4.5，分数越高表示语音质量越好。PESQ常用于评估语音编码器、语音传输质量以及语音增强算法的性能。

ESTOI (Extended Short-Time Objective Intelligibility)

ESTOI是一种语音可理解性的客观评估方法，旨在预测语音信号被听众理解的程度。与传统的STOI（Short-Time Objective Intelligibility）相比，ESTOI对于非平稳噪声环境下的语音有更好的预测性能。它通过比较干净（未受干扰）语音和处理后语音的短时统计特性来工作，输出的评分范围是0到1，分数越高表示可理解性越好。

WV-MOS (Weighted Voice Quality Model Output Score)

WV-MOS是一种基于模型的语音质量评估指标，它结合了多个不同的信号特征和质量维度，旨在提供一个综合的语音质量评分。WV-MOS考虑了包括信噪比、频率响应和其他失真在内的因素，以输出一个反映总体语音质量的分数。分数范围通常是1到5，分数越高表示语音质量越好。

SI-SDR (Scale-Invariant Signal-to-Distortion Ratio)

SI-SDR是评估语音增强或语音分离算法性能的一种指标，专注于信号到失真比的度量，但通过一种与尺度无关的方式来实现。这使得SI-SDR成为一个鲁棒的性能评价指标，特别是在处理具有不同增益或音量级别的语音信号时。SI-SDR的高值表示较低的失真率，即增强语音的质量更高。

SI-SIR (Scale-Invariant Signal-to-Interference Ratio)

SI-SIR是衡量语音信号与干扰信号之间比例的指标，特别用于语音分离任务。它量化了分离出的目标语音与背景噪声或其他干扰之间的比率，从而评估分离效果的好坏。类似于SI-SDR，SI-SIR也是与尺度无关的，能够适应不同的信号强度。

SI-SAR (Scale-Invariant Signal-to-Artifacts Ratio)

SI-SAR衡量的是语音信号相对于处理过程中引入的伪影（或人为失真）的比例。这是评估语音增强或分离算法中引入伪影程度的一个重要指标。较高的SI-SAR值表明伪影较少，即处理后的语音质量较好。