化学数据挖掘方法与应用
出版时间:2012年版
丛编项: 21世纪计算机化学丛书
内容简介
《化学数据挖掘方法与应用》主要介绍了化学常用数据挖掘方法和技术的基本原理,并重点介绍了模式识别、支持向量机、集成学习方法在材料设计、工业优化、构效关系、生物信息学等领域的应用研究实例。书中所有应用研究实例全部取自作者的应用研究课题,有关算法程序可采用作者开发的应用软件HyperMiner(见附录1)。《化学数据挖掘方法与应用》可供化学、化工及相关领域的科研人员和工程技术人员阅读,亦可作为高等学校的教学参考书。
目录
1化学数据挖掘综述
1.1化学数据挖掘的目的和意义
1.1.1数据挖掘与材料设计
1.1.2数据挖掘与构效关系
1.1.3数据挖掘与工业优化
1.2化学数据挖掘方法概要
1.3化学数据挖掘应用进展
1.3.1机器学习的数学本质
1.3.2统计模型的“过拟合”问题
1.3.3模式识别优化算法及其改进
1.3.4支持向量机算法的应用效果
1.3.5建立综合运用多种算法的数据处理平台
参考文献
2模式识别基本原理和方法
2.1模式识别方法的基本原理和预备知识
2.2模式识别经典方法
2.2.1最近邻方法
2.2.2主成分分析方法
2.2.3多重判别矢量和Fisher判别矢量方法
2.2.4偏最小二乘方法
2.2.5非线性映照方法
2.3模式识别应用技术
2.3.1最佳投影识别方法
2.3.2超多面体建模
2.3.3逐级投影建模方法
2.3.4最佳投影回归方法
2.3.5模式识别逆投影方法
2.4决策树算法
2.4.1C4.5算法
2.4.2随机决策树算法
2.4.3随机森林算法
参考文献
3人工神经网络和遗传算法
3.1人工神经网络
3.1.1反向人工神经网络
3.1.2Kohonen自组织网络
3.2遗传算法
参考文献
4支持向量机方法
4.1统计学习理论(SLT)简介
4.1.1背景
4.1.2原理
4.2支持向量分类(SVC)算法
4.2.1线性可分情形
4.2.2非线性可分情形
4.3支持向量机(SVM)的核函数
4.4支持向量回归(SVR)方法
4.4.1线性回归情形
4.4.2非线性回归情形
4.5支持向量机分类与回归算法的实现
4.6应用前景
参考文献
5集成学习方法
5.1集成学习算法概述
5.2Boosting算法
5.3Adaboost算法
5.4Bagging算法
参考文献
6特征选择方法和应用
6.1特征选择研究概述
6.2基于支持向量分类的特征选择
6.2.1后向浮动搜索算法
6.2.2用SVM?BFS进行特征选择
6.3支持向量回归的特征选择
6.3.1PRIFER算法
6.3.2计算结果的评价准则
6.3.3PRIFER方法与常规计算方法的结果比较
6.4集成学习及其特征选择
6.4.1个体子集的特征选择
6.4.2基于预报风险的特征选择
6.4.3PRIFEB算法
6.4.4UCI数据集上的计算结果
参考文献
7钙钛矿型离子导体导电性的数据挖掘
7.1钙钛矿型离子导体与燃料电池材料
7.2钙钛矿的结构特性
7.3钙钛矿型晶体的原子参数
7.3.1钙钛矿容忍因子
7.3.2钙钛矿平均离子半径
7.3.3钙钛矿单位晶格边值与临界半径
7.3.4钙钛矿组成元素的电负性
7.3.5钙钛矿平均离子极化率与所带电荷
7.3.6钙钛矿原子参数与量化参数的组合
7.4钙钛矿离子导体数据的收集
7.5数据集的自变量筛选
7.5.1自变量的经典统计相关性分析
7.5.2贝叶斯网络进行变量关联性分析
7.5.3前进?后退法进行自变量筛选
7.6多种数据挖掘方法建立原子参数?钙钛矿导电能力模型
7.6.1PLS,BP?ANN与SVR建立的回归模型
7.6.2回归模型的留一法交叉验证与独立测试集验证
7.6.3SVR模型的敏感性分析
参考文献
8熔盐相图数据库的数据挖掘
8.1相图计算的意义
8.2原子参数?模式识别方法概述
8.3智能数据库技术在材料科学中的应用
8.4熔盐相图智能数据库的研究和开发
8.5判别卤化物体系是否形成中间化合物
8.6白钨矿结构物相含稀土异价固溶体的形成规律
8.6.1白钨矿型物相及其异价固溶体的形成规律
8.6.2白钨矿型MⅠM′Ⅲ(XO4)2(X=Mo,W)物
相及其异价固溶体的形成规律
8.7钙钛矿及类钙钛矿结构的物相的若干规律性
8.7.1钙钛矿结构的复卤化物的若干规律性
8.7.2含钙钛矿结构层的夹层化合物的规律
参考文献
9镀锡薄钢板质量的数据挖掘
9.1镀锡薄钢板的发展
9.2镀锡板生产过程简介
9.3镀锡板耐蚀性能与工业生产软熔条件的关系
9.4镀锡板耐蚀性能与实验室模拟软熔条件的关系
9.5工业生产中防止淬水斑产生的数学模型
9.6镀锡板淬水斑的实验室模拟研究
参考文献
10合成氨生产效益的数据挖掘
10.1氨合成装置简介
10.1.1生产原理
10.1.2生产流程
10.1.3生产数据的复杂性和数据挖掘的必要性
10.2DMOS合成氨优化系统的开发
10.2.1DMOS合成氨优化系统简介
10.2.2DMOS合成氨优化系统离线版软件
10.2.3DMOS合成氨优化系统在线版软件
10.2.4DMOS合成氨优化系统优化生产实施步骤
10.2.5DMOS合成氨优化系统主要特点
10.3氨合成装置生产优化模型的研究
10.3.1数据集
10.3.21号合成塔生产优化数学模型
10.4讨论和结论
参考文献
11分子结构性质关系的数据挖掘
11.1偶氮染料最大吸收波长的支持向量回归模型
11.1.1分子结构特征参数的计算和筛选
11.1.2支持向量回归的计算结果
11.1.3讨论
11.2胍类化合物Na/H交换抑制活性的支持向量分类模型
11.2.1特征参数的计算与筛选
11.2.2支持向量分类的计算结果
11.2.3与其他方法的比较
11.3抗艾滋病药物HEPT活性的支持向量分类模型
11.3.1特征参数的计算与筛选
11.3.2支持向量分类的计算结果
11.3.3与其他方法的比较
11.4三唑类化合物分子筛选的最佳投影识别模型
11.4.1特征参数的计算和筛选
11.4.2特征参数间的共线性检查
11.4.3OPR法的计算
11.4.4OPR法的测试结果
11.4.5结论
参考文献
12HIV?1蛋白酶特异性位点的数据挖掘
12.1数据集准备
12.2mRMR方法和特征选取
12.3不同的特征子集建模预报能力比较
12.4特征分析和结论
参考文献
13蛋白质结构及功能类型预测
13.1用集成学习方法预测蛋白质的亚细胞定位
13.1.1蛋白质亚细胞定位的生物学基础及研究现状
13.1.2蛋白质亚细胞定位数据集以及特征参数的提取
13.1.3亚细胞定位预测中模型参数的选择与模型的验证
13.1.4分析与讨论
13.2蛋白质结构类型的集成学习方法预测
13.2.1蛋白质结构类型简介及研究现状
13.2.2数据集以及特征参数的提取
13.2.3预测蛋白质结构类型时的模型参数选择与模型验证
13.2.4分析与讨论
13.3膜蛋白类型的集成学习方法预测
13.3.1膜蛋白简介及计算预测研究现状
13.3.2膜蛋白预测的数据集以及特征参数的提取
13.3.3预测膜蛋白质类型的模型参数选择与模型验证
13.3.4预测膜蛋白质类型的模型变量分析
13.4蛋白质亚细胞定位和膜蛋白类型预报的在线Web服务
参考文献
附录1“HyperMiner数据挖掘软件”下载和应用说明
一、软件简介和下载方法
二、应用案例:V?PTC材料最佳配方及最佳工艺条件的探索
附录2第6章所用的数据集
一、大脑胶质瘤数据集
二、多元校正数据集
三、基因芯片数据集
参考文献