面向非结构化文本的知识发现:基于英汉双语平行语料库的句法级知识挖掘和抽取研究
出版时间:2013年版
内容简介
《面向非结构化文本的知识发现:基于英汉双语平行语料库的句法级知识挖掘和抽取研究》从句法这一层面入手,基于面向网络获取的英汉双语平行语料这一非结构化数据,结合自然语言处理和文本挖掘的相应技术,在情报学、语言学方法和知识的基础上,针对词汇、简单短语、复杂短语这三个句法层级上的知识挖掘和抽取问题进行了探究,揭示了词汇句法组合的呈现规律,构建了简单短语结构抽取的模型,挖掘了面向复杂短语的类别知识。
目录
第一章 引言
一 课题提出
二 研究意义
三 研究方法
四 研究技术路线
五 研究创新点
六 本书结构和所用资源
第二章 相关研究综述
一 面向网络获取相关英汉双语平行语料的概述
二 词汇句法功能分布的相关研究概况
三 短语结构知识抽取的相关研究综述
四 类别知识挖掘的相关研究
第三章 面向网络的英汉双语平行语料库自动构建
一 确定获取语料网站和制定抓取词汇底表
二 网页的抓取和英汉双语平行语料的抽取
第四章 词汇句法功能分布复杂度呈现规律的知识挖掘
一 词汇句法功能分布复杂度统计数据源简介和句法结构调整
二 词汇句法功能分布复杂度的获取
三 词汇句法功能分布复杂度的洛特卡现象揭示
第五章 基于英汉双语平行语料库的短语结构知识抽取――以介宾短语结构为例
一 英汉双语介宾短语结构句法特征统计分析
二 有关介宾短语结构知识抽取模型构建的相关介绍和预处理
三 介宾短语结构知识抽取模型的确定和英汉双语介宾短语结构知识的抽取
第六章 基于英汉双语平行语料库的复杂短语级类别知识挖掘
一 面向英汉双语专门复杂短语平行语料的聚类和词干或词形算法确定
二 语料的预处理和相关统计
三 面向英汉双语复杂短语平行语料的词性选择
四 基于英汉双语复杂短语平行语料的类别知识挖掘
结语
参考文献
附录1 宾州大学英语树库的词性标记
附录2 宾州大学汉语树库的词性标记
附录3 清华大学树库词性标记
附录4 汉语自身特征模板
附录5 英语自身特征模板
附录6 汉语添加特征模板
附录7 英语添加特征模板
附录8 中国科学院和北京大学核心词性标注集
附录9 BNC统计语料样例
后记