针对语音识别编码器对FBank音频局部信息提取不足,不能充分挖掘帧与帧之间时序性的联系以及注意力机制复杂度高的问题,提出一种基于RNN-Transducer架构的ConvTCN-FLASH-Transducer模型。该模型采用卷积神经网络模块和FLASH注意力模块相结合的方法,首先使用多尺度卷积提取音频特征的局部信息,再通过时序卷积神经网络(TCN)提取音频特征中帧与帧之间的时序性特征,用于加强音频局部信息的联系。此外,采用挤压和激励机制增强不同通道之间的关联,并提升关键通道的重要程度。在中文开源普通话数据集THCHS30上进行训练和实验,结果表明,ConvTCN-FLASHTransducer模型最终字错误率降低至4.2%,识别效果更好。
资料为PDF文档格式.
本文档关键词:语音,识别,ConvTCN,FLASH,Transducer