当前位置: 首页 石油论文 石油综合 新闻类短文本聚类新方法的研究

新闻类短文本聚类新方法的研究

收藏
  • 大小:1.15 MB
  • 语言:中文版
  • 格式:PDF文档
  • 类别:石油综合

资源简介

针对短文本矢量化数据稀疏和维度高,基于词频统计语义缺失,传统聚类方法对非球面类别检测困难以及计算量大等问题,提出一种聚类新方法。该方法主要包含三个步骤:一对文本使用Doc2vec方法进行矢量化;二使用基于密度的聚类算法CFDP对矢量化后的文本数据进行聚类;三采用t-分布领域嵌入算法(t-SNE)将数据压缩到二维空间并进行可视化。并对聚类算法中关键参数进行了交叉测试,采用S_Dbw评价聚类的效果,得到CFDP算法最优的参数组合,最后对聚类效果进行了可视化,聚类结果与文本原始类别进行比较,F值达到89.24,聚类效果良好。
  • 资料为PDF文档格式.
  • 本文档关键词:文本,研究,新闻类短,聚类新方法
  • 下载地址