当前位置: 首页 > 电子通信>电子信息 >基于ConvTCN-FLASH-Transducer的端到端语音识别

基于ConvTCN-FLASH-Transducer的端到端语音识别

大小：1.65 MB
语言：中文版
格式： PDF文档
类别：电子信息

资源简介

针对语音识别编码器对FBank音频局部信息提取不足,不能充分挖掘帧与帧之间时序性的联系以及注意力机制复杂度高的问题,提出一种基于RNN-Transducer架构的ConvTCN-FLASH-Transducer模型。该模型采用卷积神经网络模块和FLASH注意力模块相结合的方法,首先使用多尺度卷积提取音频特征的局部信息,再通过时序卷积神经网络(TCN)提取音频特征中帧与帧之间的时序性特征,用于加强音频局部信息的联系。此外,采用挤压和激励机制增强不同通道之间的关联,并提升关键通道的重要程度。在中文开源普通话数据集THCHS30上进行训练和实验,结果表明,ConvTCN-FLASHTransducer模型最终字错误率降低至4.2%,识别效果更好。

资料为PDF文档格式.

本文档关键词:语音,识别,ConvTCN,FLASH,Transducer

下载地址

点击进入下载地址列表

上一篇: 基于ConvLSTM模型的短文本情感分类研究

下一篇: 基于Copula函数的电网规划指标相关性分析及建模

立即下载

首页

建筑论文

化工

机械

能源论文

医学论文

电子信息

管理学

更多分类

基于ConvTCN-FLASH-Transducer的端到端语音识别

推荐信息