新闻类短文本聚类新方法的研究
收藏资源简介
针对短文本矢量化数据稀疏和维度高,基于词频统计语义缺失,传统聚类方法对非球面类别检测困难以及计算量大等问题,提出一种聚类新方法。该方法主要包含三个步骤:一对文本使用Doc2vec方法进行矢量化;二使用基于密度的聚类算法CFDP对矢量化后的文本数据进行聚类;三采用t-分布领域嵌入算法(t-SNE)将数据压缩到二维空间并进行可视化。并对聚类算法中关键参数进行了交叉测试,采用S_Dbw评价聚类的效果,得到CFDP算法最优的参数组合,最后对聚类效果进行了可视化,聚类结果与文本原始类别进行比较,F值达到89.24,聚类效果良好。
资料为PDF文档格式.
本文档关键词:文本,研究,新闻类短,聚类新方法