欢迎访问学兔兔,学习、交流 分享 !

返回首页 |

从零开始学Python网络爬虫 罗攀,蒋仟编著 2017年版

收藏
  • 大小:139.94 MB
  • 语言:中文版
  • 格式: PDF文档
  • 阅读软件: Adobe Reader
资源简介
从零开始学Python网络爬虫
作者:罗攀,蒋仟编著
出版时间:2017年版
内容简介
  Python是数据分析的语言,而网络中的数据和信息很多,如何从中获取需要的数据和信息呢?简单、直接的方法就是用爬虫技术来解决。本书是一本教初学者学习如何爬取网络数据和信息的入门读物。书中不仅有Python的相关内容,而且还有数据处理和数据挖掘等方面的内容。本书内容非常实用,讲解时穿插了22个爬虫实战案例,可以大大提高读者的实际动手能力。本书共分12章,核心主题包括Python零基础语法入门、爬虫原理和网页构造、我的第壹个爬虫程序、正则表达式、Lxml库与Xpath语法、使用API、数据库存储、多进程爬虫、异步加载、表单交互与模拟登录、Selenium模拟浏览器、Scrapy爬虫框架。此外,书中通过一些典型爬虫案例,讲解了有经纬信息的地图图表和词云的制作方法,让读者体验数据背后的乐趣。本书适合爬虫技术初学者、爱好者及高等院校的相关学生,也适合数据爬虫工程师作为参考读物,同时也适合各大Python数据分析的培训机构作为教材使用。
目录
目录
前言
第1章 Python零基础语法入门1
1.1 Python与PyCharm安装1
1.1.1 Python安装(Windows、Mac和Linux)1
1.1.2 PyCharm安装3
1.2 变量和字符串3
1.2.1 变量4
1.2.2 字符串的“加法”和“乘法”4
1.2.3 字符串的切片和索引5
1.2.4 字符串方法5
1.3 函数与控制语句7
1.3.1 函数7
1.3.2 判断语句8
1.3.3 循环语句8
1.4 Python数据结构9
1.4.1 列表9
1.4.2 字典11
1.4.3 元组和集合11
1.5 Python文件操作11
1.5.1 打开文件11
1.5.2 读写文件12
1.5.3 关闭文件13
1.6 Python面向对象13
1.6.1 定义类14
1.6.2 实例属性14
1.6.3 实例方法15
1.6.4 类的继承16
第2章 爬虫原理和网页构造17
2.1 爬虫原理17
2.1.1 网络连接17
2.1.2 爬虫原理18
2.2 网页构造21
2.2.1 Chrome浏览器的安装21
2.2.2 网页构造22
2.2.3 查询网页信息23
第3章 我的第一个爬虫程序26
3.1 Python第三方库26
3.1.1 Python第三方库的概念26
3.1.2 Python第三方库的安装方法27
3.1.3 Python第三方库的使用方法29
3.2 爬虫三大库30
3.2.1 Requests库30
3.2.2 BeautifulSoup库32
3.2.3 Lxml库36
3.3 综合案例1——爬取北京地区短租房信息37
3.3.1 爬虫思路分析37
3.3.2 爬虫代码及分析38
3.4 综合案例2——爬取酷狗TOP500的数据41
3.4.1 爬虫思路分析41
3.4.2 爬虫代码及分析43
第4章 正则表达式45
4.1 正则表达式常用符号45
4.1.1 一般字符45
4.1.2 预定义字符集46
4.1.3 数量词46
4.1.4 边界匹配47
4.2 re模块及其方法48
4.2.1 search()函数48
4.2.2 sub()函数49
4.2.3 findall()函数49
4.2.4 re模块修饰符51
4.3 综合案例1——爬取《斗破苍穹》全文小说53
4.3.1 爬虫思路分析53
4.3.2 爬虫代码及分析55
4.4 综合案例2——爬取糗事百科网的段子信息56
4.4.1 爬虫思路分析56
4.4.2 爬虫代码及分析58
第5章 Lxml库与Xpath语法63
5.1 Lxml库的安装与使用方法63
5.1.1 Lxml库的安装(Mac、Linux)63
5.1.2 Lxml库的使用64
5.2 Xpath语法68
5.2.1 节点关系68
5.2.2 节点选择70
5.2.3 使用技巧70
5.2.4 性能对比74
5.3 综合案例1——爬取豆瓣网图书TOP250的数据77
5.3.1 将数据存储到CSV文件中77
5.3.2 爬虫思路分析78
5.3.3 爬虫代码及分析80
5.4 综合案例2——爬取起点中文网小说信息83
5.4.1 将数据存储到Excel文件中83
5.4.2 爬虫思路分析84
5.4.3 爬虫代码及分析86
第6章 使用API88
6.1 API的使用88
6.1.1 API概述88
6.1.2 API使用方法89
6.1.3 API验证91
6.2 解析JSON数据93
6.2.1 JSON解析库93
6.2.2 斯必克API调用94
6.2.3 百度地图API调用96
6.3 综合案例1——爬取PEXELS图片98
6.3.1 图片爬取方法98
6.3.2 爬虫思路分析99
6.3.3 爬虫代码及分析100
6.4 综合案例2——爬取糗事百科网的用户地址信息102
6.4.1 地图的绘制102
6.4.2 爬取思路分析105
6.4.3 爬虫代码及分析106
第7章 数据库存储109
7.1 MongoDB数据库109
7.1.1 NoSQL概述109
7.1.2 MongoDB的安装109
7.1.3 MongoDB的使用115
7.2 MySQL数据库117
7.2.1 关系型数据库概述117
7.2.2 MySQL的安装117
7.2.3 MySQL的使用123
7.3 综合案例1——爬取豆瓣音乐TOP250的数据126
7.3.1 爬虫思路分析126
7.3.2 爬虫代码及分析127
7.4 综合案例2——爬取豆瓣电影TOP250的数据132
7.4.1 爬虫思路分析132
7.4.2 爬虫代码及分析133
第8章 多进程爬虫139
8.1 多线程与多进程139
8.1.1 多线程和多进程概述139
8.1.2 多进程使用方法140
8.1.3 性能对比140
8.2 综合案例1——爬取简书网热评文章143
8.2.1 爬虫思路分析143
8.2.2 爬虫代码及分析147
8.3 综合案例2——爬取转转网二手市场商品信息150
8.3.1 爬虫思路分析150
8.3.2 爬虫代码及分析152
第9章 异步加载159
9.1 异步加载技术与爬虫方法159
9.1.1 异步加载技术概述159
9.1.2 异步加载网页示例159
9.1.3 逆向工程162
9.2 综合案例1——爬取简书网用户动态信息165
9.2.1 爬虫思路分析165
9.2.2 爬虫代码及分析171
9.3 综合案例2——爬取简书网7日热门信息173
9.3.1 爬虫思路分析173
9.3.2 爬虫代码及分析179
第10章 表单交互与模拟登录182
10.1 表单交互182
10.1.1 POST方法182
10.1.2 查看网页源代码提交表单182
10.1.3 逆向工程提交表单185
10.2 模拟登录187
10.2.1 Cookie概述187
10.2.2 提交Cookie模拟登录187
10.3 综合案例1——爬取拉勾网招聘信息188
10.3.1 爬虫思路分析188
10.3.2 爬虫代码及分析193
10.4 综合案例2——爬取新浪微博好友圈信息195
10.4.1 词云制作195
10.4.2 爬虫思路分析202
10.4.3 爬虫代码及分析206
第11章 Selenium模拟浏览器209
11.1 Selenium和PhantomJS209
11.1.1 Selenium的概念和安装209
11.1.2 浏览器的选择和安装209
11.2 Selenium和PhantomJS的配合使用213
11
下载地址