欢迎访问学兔兔,学习、交流 分享 !

返回首页 |

Python应用实战 爬虫、文本分析与可视化 张丽 2019年版

收藏
  • 大小:58.11 MB
  • 语言:中文版
  • 格式: PDF文档
  • 阅读软件: Adobe Reader
资源简介
Python应用实战 爬虫、文本分析与可视化
作者:张丽
出版时间: 2019年版
内容简介
  欢迎来到Python的世界。本书介绍了Python的语法、数据结构等基础知识,以及经典的Python爬虫、网页文本分析及可视化。在本书中,读者不仅可以与Python“结识”,还会遇到新“朋友”―――浏览器的开发者工具,通过它来了解HTML编写网页的语言,并进行结构化的网页分析和所需数据的提取。拿来主义特别适合来类比Python语言中的库,Python将与re、requests、lxml等经典的库组合在一起,自动抓取网页数据的爬虫。Pandas这个工具会对抓取的数据进行文本分析,并实现将枯燥的数据进行漂亮的可视化呈现。千里之行,始于足下,欢迎进入本书的奇妙之旅。
目录
目 录
第1章 初识Python\t1
1.1 使用IDLE\t1
1.2 从字符串着手\t4
1.3 复杂数据的福音――列表\t7
1.3.1 创建列表\t7
1.3.2 列表的操作\t7
1.4 处理数据――条件判断\t9
1.5 处理数据――循环\t11
1.6 处理数据进阶――嵌套语句\t12
1.7 函数\t14
1.8 拿来就用――模块\t16
1.9 文件\t17
1.10 处理异常\t18
第2章 网页\t20
2.1 工具准备\t20
2.2 从URL开始\t21
2.2.1 简单获取URL\t22
2.2.2 链接与URL\t24
2.3 编写网页的语言――HTML\t25
2.3.1 创建自己的第一个网页\t26
2.3.2 标签――创建网页的方块\t27
2.3.3 标签属性\t30
2.4 CSS与class\t31
2.5 JavaScript和id\t33
2.6 网页分析工具\t36
2.6.1 谷歌开发者工具\t36
2.6.2 查看网页结构\t38
2.6.3 定位指定的元素\t39
2.6.4 筛选不同的资源\t41
2.7 网页的快递――HTTP\t44
2.7.1 HTTP请求\t45
2.7.2 HTTP响应\t46
2.7.3 HTTP的应用――Cookie和Session\t47
2.7.4 实战――HTTP的交互过程\t49
2.8 以URL结束\t52
2.9 本章总结\t55
第3章 数据抓取\t56
3.1 工具准备\t56
3.2 Xpath和lxml.html\t58
3.2.1 网页分析利器――lxml\t58
3.2.2 XPath\t59
3.2.3 XPath使用实例\t60
3.2.4 XPath演示\t61
3.3 关于robots.txt\t62
3.4 小试牛刀\t64
3.4.1 过程分析\t64
3.4.2 动手敲代码\t67
3.4.3 小结\t68
3.4.4 扩展\t68
3.5 获取电影数据(上)\t69
3.5.1 过程分析\t70
3.5.2 动手敲代码\t73
3.5.3 小结\t74
3.6 获取电影数据(下)\t75
3.6.1 过程分析\t76
3.6.2 动手敲代码\t76
3.6.3 考虑加强代码的健壮性\t78
3.6.4 小结\t80
3.7 另类的网页抓取\t80
3.7.1 过程分析\t81
3.7.2 动手敲代码\t84
3.7.3 小结\t85
3.8 爬虫与网络机器人\t85
3.9 本章总结\t86
第4章 文本处理\t87
4.1 正则表达式\t87
4.1.1 怎样进行匹配\t87
4.1.2 常用的元字符\t88
4.2 更强的文本工具――Python的 re库\t89
4.2.1 匹配对象怎么用\t91
4.2.2 使用regex来搜索\t91
4.2.3 使用regex来替换\t93
4.2.4 更方便查找\t95
4.2.5 re库中的控制标志\t95
4.2.6 replace()和re.sub()\t98
4.2.7 实现更高级的strip()方法\t99
4.2.8 新的拆分方法re.split()\t100
4.2.9 怎样提取中文\t101
4.3 电影数据的处理\t102
4.3.1 提取之前的观察\t104
4.3.2 需要获取哪些数据\t104
4.3.3 多样化的方法\t111
4.3.4 格式化的数据\t112
4.4 本章总结\t115
第5章 数据分析\t116
5.1 工具准备\t116
5.1.1 配置Jupyter Notebook\t116
5.1.2 数据生成帮手――Numpy\t116
5.1.3 Pandas中的数据结构\t118
5.2 像一维数组的Series\t118
5.2.1 获取Series信息\t120
5.2.2 Series进行数学运算\t123
5.2.3 对Series进行一些操作\t124
5.2.4 方法串联\t128
5.2.5 操作Series中的字符串数据\t129
5.2.6 小结一下Series\t130
5.3 DataFrame\t131
5.3.1 创建DataFrame\t132
5.3.2 对齐\t133
5.3.3 了解DataFrame\t134
5.3.4 常用DataFrame操作\t137
5.3.5 数据的导入与导出\t141
5.4 简单数据分析\t145
5.4.1 电影评分分布\t145
5.4.2 电影产量趋势\t146
5.4.3 评论人数最多的电影\t147
5.4.4 发行电影最多的国家\t148
5.5 看得见的数据\t153
5.5.1 线图\t153
5.5.2 柱状图\t155
5.5.3 饼图\t157
下载地址