摘要:为了给不同听者在不同场景下提供更好的语音增强主观听觉感受,提出了一种基于感知条件网络的可控语音增强模 型。 首先设计分位数损失函数来对语音的高估和低估进行权衡,并以此来指导网络的训练,通过调节网络输出中的语音损失和 噪声残留水平,来控制模型的输出特性。 然后为了让单个网络具有可变的输出特性,引入条件网络,利用分位数损失函数中与 听者感知相关的分位值产生条件信息来对含噪语音特征进行调制,建立了可控的语音增强模型。 实验结果表明,设计的分位数 损失函数能够有效调节增强语音中的语音损失和噪声残留水平;基于感知条件网络建立的可控语音增强模型,能够提供可由听 者主动控制的增强语音输出特性,使听者获得更好的语音增强体验。