融合注意力与语义引导的视频描述生成方法
收藏资源简介
将基于深度学习的视频描述生成方法应用到海量视频检索和视频内容审核中,是为了通过视频描述方法生成语义文本,达到对视频的高效组织和管理。然而,现有的视频描述方法缺少对语义信息的探索,无法专注于视频中的特定动作的语义特征和语义表达。为克服上述局限性,文中提出一种融合注意力与语义引导的视频描述生成方法。在解码过程中,该方法使用自适应注意门控单元进行视觉特征和语义信息的融合,通过两个专用的LSTM层引导模型生成文本,使模型生成更准确的词。为验证所提方法的有效性,使用数据集MSR-VTT和MSVD进行实验。结果表明,融合注意力与语义引导能够有效提升视频描述生成方法的性能,相较于其他模型,所提方法各项评价指标均有一定提升。
资料为PDF文档格式.
本文档关键词:语义,视频,注意力,生成,描述