云模型与文本挖掘
作者:代劲,宋娟,胡峰 等著
出版时间:2013年版
内容简介
在当前文本挖掘领域中,传统的数据挖掘方法依然占据着主导地位。然而随着文本挖掘研究的深入,面临着越来越严峻的挑战。这些挑战归根到底是由于自然语言的不确定性造成的。借助不确定性知识研究的重要工具——云模型在定性概念与定量数据间的转换作用,作者将其引入到文本挖掘关键问题研究中,力图降低自然语言中的不确定性知识对文本挖掘性能的影响。在充分利用现有技术的基础上,作者进行了一些大胆的尝试,努力探索出适用于文本挖掘的不确定性人工智能处理方法,用以抛砖引玉,为文本挖掘技术的进一步发展提供一种新的思路与解决方法。
目 录
第1章 绪论 1
1.1 文本挖掘的产生背景 1
1.2 文本挖掘的重要意义 2
1.2.1 推进信息化建设 2
1.2.2 提高信息利用效率 2
1.2.3 提高人工智能水平 3
1.2.4 保障决策支撑 3
1.3 不确定性人工智能及其研究方法 4
1.3.1 不确定性人工智能概述 4
1.3.2 不确定性人工智能的主要研究内容 5
1.3.3 不确定性人工智能的主要研究方法 10
第2章 文本挖掘及其关键问题 16
2.1 引言 16
2.2 文本挖掘 16
2.2.1 文本挖掘定义 16
2.2.2 文本挖掘流程 18
2.3 文本挖掘研究基础 19
2.3.1 国内外研究现状 19
2.3.2 面临的问题 21
2.4 文本挖掘的关键问题 22
2.4.1 文本表示及特征提取 22
2.4.2 文本特征权重计算方法 23
2.4.3 文本分类系统概述及应用 26
2.4.4 文本聚类系统概述及应用 28
2.5 文本挖掘面临的机遇及挑战 30
2.6 本章小结 31
第3章 云模型及其在文本挖掘中的理论扩充 32
3.1 引言 32
3.2 知识的不确定性 33
3.2.1 知识的随机性 33
3.2.2 知识的模糊性 34
3.2.3 随机性与模糊性之间的内在联系 35
3.2.4 自然语言的不确定性 36
3.3 云模型 37
3.3.1 自然语言 37
3.3.2 自然语言中的概念与知识表示 38
3.3.3 概念中随机性与模糊性的关联性 40
3.3.4 云模型 41
3.3.5 云模型数字特征 43
3.3.6 云规则发生器 44
3.3.7 正态云及其普适性 47
3.3.8 云模型常用算法 49
3.3.9 云模型主要应用 50
3.4 基于云模型的概念层次划分 57
3.4.1 概念层次 57
3.4.2 概念层次的自动生成 58
3.4.3 云变换 59
3.5 基于VSM模型的文本知识表示 61
3.5.1 基于VSM模型的文本表示 61
3.5.2 基于信息表的文本知识表示 62
3.5.3 基于云模型的文本信息表转换 63
3.6 基于云相似度的文本相似度量 63
3.6.1 文本挖掘中的相似度量 63
3.6.2 云相似度及文本云相似度量 64
3.7 本章小结 65
第4章 云模型与粒计算 66
4.1 引言 66
4.2 粒计算及粒度原理 67
4.2.1 粒计算概述 67
4.2.2 粒计算基本问题及主要理论方法 68
4.2.3 粒计算研究进展 69
4.2.4 粒计算面临的挑战 70
4.3 基于云模型的快速信息粒化 73
4.3.1 从粒计算角度看知识的不确定性 73
4.3.2 云模型下的概念粒子 74
4.3.3 基于云模型的信息粒化算法 75
4.4 应用分析与讨论 77
4.5 本章小结 77
第5章 基于云模型的文本特征自动提取 78
5.1 引言 78
5.2 文本特征降维 79
5.2.1 文本特征矩阵降维 79
5.2.2 文本特征选择 81
5.2.3 常用特征选择方法 81
5.3 基于云模型的文本特征自动提取算法 86
5.3.1 基于统计量的文本特征分布矩阵 87
5.3.2 算法描述 87
5.3.3 实验及分析 90
5.4 本章小结 93
第6章 基于云概念跃升的文本分类 94
6.1 引言 94
6.2 文本分类概述 94
6.2.1 文本分类产生背景 94
6.2.2 中文文本分类 96
6.2.3 中英文本分类的异同 96
6.3 文本分类常用方法 97
6.3.1 常用文本分类方法 98
6.3.2 性能分析 106
6.4 文本分类模型的评估 108
6.4.1 采样方法 108
6.4.2 评估指标 109
6.5 基于云概念跃升的文本分类 110
6.5.1 虚拟泛概念树及概念跃升 110
6.5.2 算法描述 112
6.5.3 实验及分析 113
6.6 本章小结 115
第7章 基于主观信任云的文本分类 116
7.1 引言 116
7.2 主观信任云及信任决策 117
7.2.1 信任模型 117
7.2.2 主观信任云 119
7.2.3 基于主观信任云的信任决策 121
7.3 基于主观信任云的文本分类 122
7.3.1 算法描述 122
7.3.2 实验及分析 124
7.4 本章小结 127
第8章 基于云相似度量的无监督文本聚类 128
8.1 引言 128
8.2 文本聚类概述 128
8.2.1 聚类分析定义 128
8.2.2 数据挖掘应用对聚类分析的要求 130
8.2.3 距离与相似系数 131
8.2.4 聚类的特征与类间距离 133
8.3 聚类分析的数据类型 135
8.3.1 区间标度变量 135
8.3.2 二元变量 136
8.3.3 标称型、序数型和比例标度型变量 137
8.3.4 混合类型变量 139
8.4 文本聚类常用方法 140
8.4.1 常用文本聚类方法 140
8.4.2 算法性能比较 148
8.5 文本聚类性能评价指标 148
8.6 基于云相似度量的无监督文本聚类 149
8.6.1 算法提出背景 149
8.6.2 算法描述 150
8.6.3 实验及分析 152
8.7 本章小结 153
第9章 结束语 154
参考文献 156