基于Python的语料库数据处理
作者: 雷蕾 著
出版时间: 2020年版
内容简介
《基于Python的语料库数据处理》以语料库语言学研究实践为导向,介绍Python编程基础知识。第1章为Python语言简介,第2章至第6章由易到难、循序渐进介绍Python语言的基本数据类型和语法。第7章和第8章提供文本处理的个案实例。《基于Python的语料库数据处理》内容涵盖语料库语言学研究中常用的文本处理模式,读者可以通过学习《基于Python的语料库数据处理》掌握语料库语言学研究中的Python编程技巧,以便更深入地进行研究。另外,《基于Python的语料库数据处理》提供大量语料库语言学文本处理所需的Python代码,读者可以直接将这些代码(或将这些代码稍加改动)用于自己的研究中。
目录
目录
文科生的编程自白
第1章 引言 1
1.1 Python语言与语料库数据处理 1
1.2 安装Python 3
1.3 Python代码的编写和运行 5
1.4 PyCharm的安装和使用 6
1.5 “Hello world!” 8
1.6 本书结构 10
第2章 数值和字符串 13
2.1 数值 13
2.2 常用数值运算符 14
2.3 常用数值函数 16
2.4 数值计算示例 20
2.5 数值计算练习 24
2.6 字符串 25
2.7 字符串运算 28
2.8 字符串与数值的互换 29
2.9 常用字符串函数 29
2.10 练习 32
第3章 条件与循环 33
3.1 条件判断 33
3.2 while循环 39
3.3 for in循环 39
3.4 读写单个文本 41
3.5 练习 44
第4章 列表和元组 46
4.1 列表 46
4.2 列表与字符串的相互转换 47
4.3 常用列表函数 49
4.4 列表相关文本处理实例 56
4.5 元组 59
4.6 练习 60
第5章 正则表达式 62
5.1 正则表达式的概念 62
5.2 普通字符 64
5.3 元字符 64
5.4 匹配零个或多个字符 66
5.5 分组 72
5.6 元字符的转义 74
5.7 换行符、回车符、制表符 77
5.8 正则表达式相关实例 77
5.9 练习 89
第6章 字典 90
6.1 字典的概念 90
6.2 常用字典函数 92
6.3 字典排序 95
6.4 字典相关实例 97
6.5 练习 102
第7章 语料库数据处理个案实例 103
7.1 分句和分词 103
7.2 词性赋码 107
7.3 词形还原 111
7.4 抽取词块 112
7.5 计算搭配强度 114
7.6 删除词表中的停用词 119
7.7 语料检索的KWIC实现 120
7.8 句子检索相关个案 122
7.9 实现Range软件功能 123
7.10 读取多个文本文件 133
7.11 多个文本文件批量改名 137
7.12 使用Stanford CoreNLP进行文本处理 139
第8章 语料库Unicode数据处理个案实例 153
8.1 中文分词 153
8.2 中文词性赋码 157
8.3 检索中文文本 160
8.4 英汉双语语料文本的合并与分割 162
附录A Python及命令行文本处理相关参考书籍 167
附录B 宾夕法尼亚大学树库词性赋码集 168