结合数据增强与改进GAN的语音降噪方法研究
收藏资源简介
为改善深度神经网络模型进行端到端语音降噪时存在的底层特征易丢失、模型泛化能力弱以及编解码信息传播困难的问题,文中提出一种改进的GAN语音降噪模型。该模型以GAN模型为基础框架,进行了以下三点改进:第一,为了增强模型鲁棒性、防止过拟合以及提高模型训练效率,使用SpecAugment进行数据预处理;第二,为了减少训练过程中底层有效特征信息丢失,增强编解码阶段的信息传播,在生成器网络中引入了注意力机制和残差模块;第三,为了更好地判断生成样本与真实样本之间的Wasserstein距离,提高模型的准确性,采用DNN作为判别器的网络结构。实验结果表明,相较于原GAN模型,改进模型的短时客观可懂度(STOI)和语音质量感知估计(PESQ)两种指标平均提升了8.4%和6.5%,并且在工厂噪声环境下的降噪效果提升尤为明显。此外,通过语谱图对比可知,改进后的模型对于干净语音的细节还原度更高,保留了更多低频有效信息。以上结果可以证明,改进后的模型有着较好的鲁棒性,模型泛化能力更强,可用于真实环境下语音降噪。
资料为PDF文档格式.
本文档关键词:语音,数据,改进,增强,结合