传统K-medoids聚类算法随机选取初始聚类中心,存在迭代次数增加、聚类结果波动较大的问题,因此提出基于全覆盖粒计算的K-medoids文本聚类算法。该算法定义了全覆盖平均粒度重要性的概念。首先对文本进行Single-Pass粗聚类,利用全覆盖粒度重要性和平均粒度重要性从粗聚类结果中产生初始聚类中心候选集,再基于密度和最大最小距离法则从候选集中选出初始聚类中心。通过实验验证,该算法的聚类迭代次数明显减小,聚类质量明显提高。
资料为PDF文档格式.
本文档关键词:算法,文本,覆盖,计算,medoids