Python网络数据爬取及分析从入门到精通（爬取篇）

cnpython2024-04-20 04:11:48 655

这本Python网络数据爬取及分析从入门到精通（爬取篇）图书，是2018-06-01月由北京航空航天大学出版社所出版的，著作者信息： 杨秀璋，颜娜著，本版是第1次印刷， ISBN：9787512427129，品牌：北京航空航天大学出版社, 这本书的包装是小全开平装，所用纸张为胶版纸，全书页数未知，字数有万字，是本值得推荐的Python软件开发图书。

此书内容摘要

本书采用通俗易懂的语言、丰富多彩的实例，详细介绍了使用Python语言进行网络数据爬取的知识，主要内容包括Python语法、正则表达式、BeautifulSoup技术、Selenium技术、Scrapy框架、数据库存储等，同时详细介绍了爬取网站和博客内容、电影数据信息、招聘信息、在线百科知识、微博内容、农产品信息等实例。

书中所有知识点都结合经典实例进行介绍，涉及的实例都给出了详细的分析流程，程序代码都给出了具体的注释，同时采用图文结合的形式讲解，让读者能更加轻松地领会Python网络数据爬虫的精髓，并快速提高自己的开发能力。

本书即可作为Python开发入门者的自学用书，也可作为高等院校数据爬取、数据分析、数据挖掘、大数据等相关专业的教学参考书或实验指导书，还可供Python开发人员查阅、参考。

关于此书作者

杨秀璋，毕业于北京理工大学软件学院，长期从事Web数据挖掘、Python数据分析、网络数据爬取工作及研究。他现任教于贵州财经大学信息学院，主讲“数据挖掘与分析”“大数据技术及应用”课程，并从事大数据分析、数据挖掘、知识图谱等领域的项目研究与开发；有多年的Python编程、数据分析及知识图谱研究经验，实战经验较为丰富。

此外，他还积极分享编程知识和开源代码编写经验，先后在CSDN、博客园、阿里云栖社区撰写博客，仅在CSDN就分享了300多篇原创文章，开设了11个专栏，累计阅读量超过250万人次。

编辑们的推荐

Python网络数据爬取及分析从入门到精通（爬取篇）

这是一套以实例为主、使用Python语言讲解网络数据爬虫及分析的实战指南。本套书通俗易懂,涵盖了Python基础知识、数据爬取、数据分析、数据预处理、数据可视化、数据存储、算法评估等多方面知识，每一部分知识都从安装过程、导入扩展包到算法原理、基础语法,再结合实例进行详细讲解。

本套书包括两本:《Python网络数据爬取及分析从入门到精通(爬取篇)》和《Python网络数据爬取及分析从入门到精通(分析篇)》。

看完此书，真正让你做到从入门到精通。

Python网络数据爬取及分析从入门到精通（爬取篇）图书的目录

第1章网络数据爬取概述…………………………………………………………… 1

1.1 网络爬虫 ……………………………………………………………………… 1

1.2 相关技术 ……………………………………………………………………… 3

1.2.1 HTTP …………………………………………………………………… 3

1.2.2 HTML…………………………………………………………………… 3

1.2.3 Python …………………………………………………………………… 5

1.3 本章小结 ……………………………………………………………………… 5

参考文献……………………………………………………………………………… 5

第2章 Python知识初学 …………………………………………………………… 6

2.1 Python简介 …………………………………………………………………… 6

2.2 基础语法……………………………………………………………………… 11

2.2.1 缩进与注释……………………………………………………………… 11

2.2.2 变量与常量……………………………………………………………… 12

2.2.3 输入与输出……………………………………………………………… 14

2.2.4 赋值与表达式…………………………………………………………… 16

2.3 数据类型……………………………………………………………………… 16

2.3.1 数字类型………………………………………………………………… 16

2.3.2 字符串类型……………………………………………………………… 17

2.3.3 列表类型………………………………………………………………… 17

2.3.4 元组类型………………………………………………………………… 19

2.3.5 字典类型………………………………………………………………… 19

2.4 条件语句……………………………………………………………………… 19

2.4.1 单分支…………………………………………………………………… 20

2.4.2 二分支…………………………………………………………………… 20

2.4.3 多分支…………………………………………………………………… 21

2.5 循环语句……………………………………………………………………… 22

2.5.1 while循环 ……………………………………………………………… 22

2.5.2 for循环 ………………………………………………………………… 24

2.5.3 break和continue语句 ………………………………………………… 24

2.6 函数………………………………………………………………………… 25

2.6.1 自定义函数……………………………………………………………… 26

2.6.2 常见内部库函数………………………………………………………… 27

2.6.3 第三方库函数…………………………………………………………… 29

2.7 字符串操作…………………………………………………………………… 30

2.8 文件操作……………………………………………………………………… 32

2.8.1 打开文件………………………………………………………………… 32

2.8.2 读/写文件 ……………………………………………………………… 32

2.8.3 关闭文件………………………………………………………………… 33

2.8.4 循环遍历文件…………………………………………………………… 34

2.9 面向对象……………………………………………………………………… 34

2.10 本章小结 …………………………………………………………………… 36

参考文献 …………………………………………………………………………… 36

第3章正则表达式爬虫之牛刀小试 ……………………………………………… 37

3.1 正则表达式…………………………………………………………………… 37

3.2 Python网络数据爬取的常用模块 ………………………………………… 39

3.2.1 urllib模块 ……………………………………………………………… 39

3.2.2 urlparse模块 …………………………………………………………… 42

3.2.3 requests模块 …………………………………………………………… 44

3.3 正则表达式爬取网络数据的常见方法……………………………………… 45

3.3.1 爬取标签间的内容……………………………………………………… 45

3.3.2 爬取标签中的参数……………………………………………………… 49

3.3.3 字符串处理及替换……………………………………………………… 50

3.4 个人博客爬取实例…………………………………………………………… 52

3.4.1 分析过程………………………………………………………………… 52

3.4.2 代码实现………………………………………………………………… 57

3.5 本章小结……………………………………………………………………… 59

参考文献 …………………………………………………………………………… 59

第4章 BeautifulSoup技术 ………………………………………………………… 60

4.1 安装BeautifulSoup ………………………………………………………… 60

4.1.1 Python 2.7安装BeautifulSoup ……………………………………… 60

4.1.2 pip安装扩展库 ………………………………………………………… 63

4.2 快速开始BeautifulSoup解析 ……………………………………………… 67

4.2.1 BeautifulSoup解析 HTML …………………………………………… 68

4.2.2 简单获取网页标签信息………………………………………………… 71

4.2.3 定位标签并获取内容…………………………………………………… 72

4.3 深入了解BeautifulSoup …………………………………………………… 73

4.3.1 BeautifulSoup对象 …………………………………………………… 74

4.3.2 遍历文档树……………………………………………………………… 79

4.3.3 搜索文档树……………………………………………………………… 82

4.4 BeautifulSoup简单爬取个人博客网站 …………………………………… 84

4.5 本章小结……………………………………………………………………… 87

参考文献 …………………………………………………………………………… 87

第5章 BeautifulSoup爬取电影信息 ……………………………………………… 88

5.1 分析网页DOM 树结构……………………………………………………… 88

5.1.1 分析网页结构及简单爬取……………………………………………… 88

5.1.2 定位节点及网页翻页分析……………………………………………… 91

5.2 爬取豆瓣电影信息…………………………………………………………… 94

5.3 链接跳转分析及详情页面爬取……………………………………………… 98

5.4 本章小结 …………………………………………………………………… 104

参考文献…………………………………………………………………………… 104

第6章 Python数据库知识 ……………………………………………………… 105

6.1 MySQL数据库 …………………………………………………………… 105

6.1.1 MySQL的安装与配置 ……………………………………………… 105

6.1.2 SQL基础语句详解 …………………………………………………… 112

6.2 Python操作 MySQL数据库 ……………………………………………… 119

6.2.1 安装 MySQL扩展库 ………………………………………………… 119

6.2.2 程序接口DB-API …………………………………………………… 121

6.2.3 Python调用 MySQLdb扩展库 ……………………………………… 122

6.3 Python操作SQLite 3数__________据库 …………………………………………… 126

6.4 本章小结 …………………………………………………………………… 129

参考文献…………………………………………………………………………… 129

第7章基于数据库存储的BeautifulSoup招聘爬虫 …………………………… 130

7.1 知识图谱和智联招聘 ……………………………………………………… 130

7.2 BeautifulSoup爬取招聘信息 ……………………………………………… 132

7.2.1 分析网页超链接及跳转处理 ………………………………………… 132

7.2.2 DOM 树节点分析及网页爬取 ……………………………………… 135

7.3 Navicat for MySQL工具操作数据库 …………………………………… 137

7.3.1 连接数据库 …………………………………………………………… 137

7.3.2 创建数据库 …………………………………………………………… 139

7.3.3 创建表 ………………………………………………………………… 141

7.3.4 数据库增删改查操作 ………………………………………………… 143

7.4 MySQL数据库存储招聘信息 …………………………………………… 146

7.4.1 MySQL操作数据库 ………………………………………………… 146

7.4.2 代码实现 ……………………………………………………………… 148

7.5 本章小结 …………………………………………………………………… 153

参考文献…………………………………………………………………………… 153

第8章 Selenium技术……………………………………………………………… 154

8.1 初识Selenium ……………………………………………………………… 154

8.1.1 安装Selenium ………………………………………………………… 155

8.1.2 安装浏览器驱动 ……………………………………………………… 156

8.1.3 PhantomJS …………………………………………………………… 158

8.2 快速开始Selenium解析…………………………………………………… 159

8.3 定位元素 …………………………………………………………………… 162

8.3.1 通过id属性定位元素 ………………………………………………… 163

8.3.2 通过name属性定位元素 …………………………………………… 165

8.3.3 通过XPath路径定位元素 …………………………………………… 166

8.3.4 通过起链接文本定位元素 …………………………………………… 168

8.3.5 通过标签名定位元素 ………………………………………………… 169

8.3.6 通过类属性名定位元素 ……………………………………………… 170

8.3.7 通过CSS选择器定位元素 …………………………………………… 170

8.4 常用方法和属性 …………………………………………………………… 170

8.4.1 操作元素的方法 ……………………………………………………… 170

8.4.2 WebElement常用属性 ……………………………………………… 174

8.5 键盘和鼠标自动化操作 …………………………………………………… 175

8.5.1 键盘操作 ……………………………………………………………… 175

8.5.2 鼠标操作 ……………………………………………………………… 177

8.6 导航控制 …………………………………………………………………… 178

8.6.1 下拉菜单交互操作 …………………………………………………… 178

8.6.2 Window和Frame间对话框的移动 ………………………………… 179

8.7 本章小结 …………………………………………………………………… 180

参考文献…………………………………………………………………………… 180

第9章 Selenium爬取在线百科知识……………………………………………… 181

9.1 三大在线百科 ……………………………………………………………… 181

9.1.1 维基百科 ……………………………………………………………… 181

9.1.2 百度百科 ……………………………………………………………… 183

9.1.3 互动百科 ……………………………………………………………… 184

9.2 Selenium爬取维基百科 …………………………………………………… 185

9.2.1 网页分析 ……………………………………………………………… 185

9.2.2 代码实现 ……………………………………………………………… 190

9.3 Selenium爬取百度百科 …………………………………………………… 190

9.3.1 网页分析 ……………………………………………………………… 190

9.3.2 代码实现 ……………………………………………………………… 195

9.4 Selenium爬取互动百科 …………………………………………………… 198

9.4.1 网页分析 ……………………………………………………………… 198

9.4.2 代码实现 ……………………………………………………………… 200

9.5 本章小结 …………………………………………………………………… 202

参考文献…………………………………………………………………………… 203

第10章基于数据库存储的Selenium博客爬虫 …………………………………… 204

10.1 博客网站…………………………………………………………………… 204

10.2 Selenium爬取博客信息 ………………………………………………… 206

10.2.1 Forbidden错误 ……………………………………………………… 206

10.2.2 分析博客网站翻页方法……………………………………………… 208

10.2.3 DOM 树节点分析及网页爬取 ……………………………………… 210

10.3 MySQL数据库存储博客信息 …………………………………………… 212

10.3.1 Navicat for MySQL创建表 ………………………………………… 213

10.3.2 Python操作 MySQL数据库 ……………………………………… 214

10.3.3 代码实现……………………………………………………………… 216

10.4 本章小结…………………………………………………………………… 222

第11章基于登录分析的Selenium微博爬虫 ……………………………………… 223

11.1 登录验证…………………………………………………………………… 223

11.2 初识微博爬虫……………………………………………………………… 226

11.2.1 微博………………………………………………………………… 226

11.2.2 登录入口……………………………………………………………… 227

11.2.3 微博自动登录………………………………………………………… 229

11.3 爬取微博热门信息………………………………………………………… 232

11.3.1 搜索所需的微博主题………………………………………………… 232

11.3.2 爬取微博内容………………………………………………………… 235

11.4 本章小结…………………………………………………………………… 242

参考文献…………………………………………………………………………… 242

第12章基于图片抓取的Selenium爬虫 ………………………………………… 243

12.1 图片爬虫框架……………………………………………………………… 243

12.2 图片网站分析……………………………………………………………… 245

12.2.1 图片爬取方法………………………………………………………… 245

12.2.2 全景网爬取分析……………………………………………………… 246

12.3 代码实现…………………………………………………………………… 250

12.4 本章小结…………………………………………………………………… 254

第13章 Scrapy技术爬取网络数据 ……………………………………………… 255

13.1 安装Scrapy ……………………………………………………………… 255

13.2 快速了解Scrapy ………………………………………………………… 256

13.2.1 Scrapy基础知识 …………………………………………………… 257

13.2.2 Scrapy组成详解及简单示例 ……………………………………… 259

13.3 Scrapy爬取贵州农产品数据集 ………………………………………… 270

13.4 本章小结…………………………………………………………………… 285

参考文献…………………………………………………………………………… 285

套书后记……………………………………………………………………………… 286

致谢………………………………………………………………………………… 288

部分内容试读

随着数据分析和人工智能风暴的来临,Python也变得越来越火热。它就像一把利剑,使我们能随心所欲地做着各种分析与研究。在研究机器学习、深度学习与人工智能之前,我们有必要静下心来学习一下Python基础知识、基于Python的网络数据爬取及分析,这些知识点都将为我们后续的开发和研究打下扎实的基础。同时,由于世面上缺少以实例为驱动,全面详细介绍Python网络爬虫及数据分析的书,本套书很好地填补了这一空白,它通过Python语言来教读者编写网络爬虫并教大家针对不同的数据集做算法分析。本套书既可以作为Python数据爬取及分析的入门教材,也可以作为实战指南,包括多个经典案例。下面作者将简单介绍本套书。

它究竟是一套什么样的书呢? 对您学习网络数据抓取及分析是否有帮助呢?

本套书是以实例为主、使用Python语言讲解网络数据爬虫及分析的书和实战指南。本套书结合图表、代码、示例,采用通俗易懂的语言介绍了Python基础知识、数据爬取、数据分析、数据预处理、数据可视化、数据存储、算法评估等多方面知识,每一部分知识都从安装过程、导入扩展包到算法原理、基础语法,再结合实例详细讲解。本套书适合计算机科学、软件工程、信息技术、统计数学、数据科学、数据挖掘、大数据等专业的学生学习,也适合对网络数据爬取、数据分析、文本挖掘、统计分析等领域感兴趣的读者阅读,同时也作为数据挖掘、数据分析、数据爬取、机器学习、大数据等技术相关课程的教材或实验指南。

本套书分为两篇本:数据爬取篇和数据分析篇。其中,爬取篇详细讲解了正则表达式、BeautifulSoup、Selenium、Scrapy、数据库存储相关的爬虫知识,并通过实例让读者真正学会如何分析网站、爬取自己所需的数据;分析篇详细讲解了Python数据分析常用库、可视化分析、回归分析、聚类分析、分类分析、关联规则挖掘、文本预处理、词云分析及主题模型、复杂网络和基于数据库的分析。“数据爬取篇”突出爬取,“数据分析篇”侧重分析,为了更好地掌握相关知识,建议读者将两本书结合起来学习。

为什么本套书会选择Python作为数据爬取和数据分析的编程语言呢?

随着大数据、数据分析、深度学习、人工智能的迅速发展,网络数据爬取和网络数据分析也变得越来越热门。由于Python具有语法清晰、代码友好、易读易学等特点,同时拥有强大的第三方库支持,包括网络爬取、信息传输、数据分析、绘图可视化、机器学习等库函数,所以本套书选择Python作为数据爬取和数据分析的编程语言。

首先,Python既是一种解释性编程语言,又是一种面向对象的语言,其操作性和可移植性较高,因而被广泛应用于数据挖掘、文本抓取、人工智能等领域。就作者看来,Python最大的优势在于效率。有时程序员或科研工作者的工作效率比机器的效率更为重要,对于很多复杂的功能,使用较清晰的语言能给程序员减轻更多的负担,从而大大提高代码质量,提高工作效率。虽然Python底层运行速度要比C语言慢,但Python清晰的结构能节省程序员的时间,简单易学的特点也降低了编程爱好者的门槛,所以说“人生苦短,我学Python”。

其次,Python可以应用在网络爬虫、数据分析、人工智能、机器学习、Web开发、金融预测、自动化测试等多个领域,并且都有非常优秀的表现,从来没有一种编程语言可以像Python这样同时扎根在这么多领域。另外,Python还支持跨平台操作,支持开源,拥有丰富的第三方库。尤其随着人工智能的持续火热,Python在IEEE 发布的2017年最热门语言中排名第一,同时许多程序爱好者、科技工作者也都开始认识Python,使用Python。

接下来作者将Python和其他常用编程语言,突出其优势。相比于C#,Python是跨平台的、支持开源的,是一种解释型语言进行简单对比,可以运行在Windows、Linux等平台上;而C#则相反,其平台受限,不支持开源,并且需要编译。相比于Java,Python更简洁,学习难度也相对低很多,而Java则过于庞大复杂。相比于C和C++,Python的语法简单易懂,代码清晰,是一种脚本语言,使用起来更为灵活;而C和C++通常要和底层硬件打交道,语法也比较晦涩难懂。

目前,Python 3.x版本已经发布并正在普及,本套书却选择了Python2.7版本,并贯穿整套书的所有代码,这又是为什么呢?

在Python发布的版本中,Python 2.7是比较经典的一个版本,其兼容性较高,各方面的资料和文章也比较完善。该版本适用于多种信息抓取库,如Selenium、BeautifulSoup等,也适用于各种数据分析库,如Sklearn、Matplotlib等,所以本套书选择Python 2.7版本;同时结合官方的Python解释器和Anaconda集成软件进行详细介绍,也希望读者喜欢。Python 3.x版本已经发布,具有一些更便捷的地方,但大部分功能和语法都与Python 2.7是一致的,作者推荐大家结合Python 3.x进行学习,并可以尝试将本套书中的代码修改为Python 3.x版本,加深印象。

同时,作者针对不同类型的读者给出一些关于如何阅读和使用本套书的建议。

如果您是一名没有任何编程基础或数据分析经验的读者,建议您在阅读本套书时,先了解对应章节的相关基础知识,并手动敲写每章节对应的代码进行学习;虽然本套书是循序渐进深入讲解的,但是为了您更好地学习数据抓取和数据分析知识,独立编写代码是非常必要的。

如果您是一名具有良好的计算机基础、Python开发经验或数据挖掘、数据分析背景的读者,则建议您独立完成本套书中相应章节的实例,同时抓取自己感兴趣的数据集并深入分析,从而提升您的编程和数据分析能力。

如果您是一名数据挖掘或自然语言处理相关行业的研究者,建议您从本套书找到自己感兴趣的章节进行学习,同时也可以将本套书作为数据爬取或数据分析的小字典,希望给您带来一些应用价值。

如果您是一名老师,则推荐您使用本套书作为网络数据抓取或网络数据分析相关课程的教材,您可以按照本套书中的内容进行授课,也可以将本套书中相关章节布置为学生的课后习题。个人建议老师在讲解完基础知识之后,把相应章节的任务和数据集描述布置给学生,让他们实现对应的爬取或分析实验。但切记,一定要让学生自己独立实现书中的代码,以扩展他们的分析思维,从而培育更多数据抓取和数据分析领域的人才。

如果您只是一名对数据爬取或数据分析感兴趣的读者,则建议您简单了解本书的结构、每章节的内容,掌握数据抓取和数据分析的基本流程,作为您普及Web数据挖掘和大数据分析的参考书。

无论如何,作者都希望本套书能给您普及一些网络数据抓取相关的知识,更希望您能爬取自己所需的语料,结合本套书中的案例分析自己研究的内容,给您的研究课题或论文提供一些微不足道的思路。如果本套书让您学会了Python抓取网络数据的方法,作者就更加欣慰了。

最后,完成本套书肯定少不了很多人的帮助和支持,在此送上我最诚挚的谢意。

本套书确实花费了作者很多心思,包括多年来从事Web数据挖掘、自然语言处理、网络爬虫等领域的研究,汇集了作者5年来博客知识的总结。本套书在编写期间得到了许多Python数据爬取和数据分析爱好者,作者的老师、同学、同事、学生,以及互联网一些“大牛”的帮助,包括张老师(北京理工大学)、籍文(大疆创新科技公司)、徐溥(SAP公司)、俊林(阿里巴巴公司)、容神、峰子(华为公司)、田一(南京理工大学)、王金(重庆邮电大学)、罗炜(北京邮电大学)、胡子(中央民族大学)、任行(中国传媒大学)、青哥(老师)、兰姐(电子科技大学)、小何幸(贵州财经大学)、小民(老师)、任瑶(老师)等,在此表示最诚挚的谢意。同时感谢北京理工大学和贵州财经大学对作者多年的教育与培养,感谢CSDN 网站、博客园网站、阿里云栖社区等多年来对作者博客和专栏的支持。

由于本套书是结合作者关于Python实际抓取网络数据和分析数据的研究,以及多年撰写博客经历而编写的,所以书中难免会有不足或讲得不够透彻的地方,敬请广大读者谅解。

最后,以作者离开北京选择回贵州财经大学信息学院任教的一首诗结尾吧!

贵州纵美路迢迢,未付劳心此一遭。

收得破书三四本,也堪将去教尔曹。

但行好事,莫问前程。

待随满天桃李,再追学友趣事。

作者

2018年2月24日

关于此书评价

暂无.

书摘内容

推荐序一

作为与秀璋同窗同寝的10年老友,此书可以说是他实践的总结。秀璋是深受朋友信任的好兄弟,亦是深受学生爱戴的好老师,似乎有着用不完的热情,这种热情,带给我们这个社会一丝丝的温暖,在人与人之间传递着。当初在博客上不断写文章,并耐心解答网友们的各种问题,还帮助许多网友学习编程,指导他们的作业甚至毕业论文,所以,当教师这颗种子早已埋下。毕业后的秀璋,拿着同学们羡慕的北京IT行业某网络公司的录取通知书,却毅然决然踏上返乡的路,这一走,走进了大山里的贵州,成了一名受人尊敬的人民教师。生活平淡而辛苦,而乐观的秀璋却收获了爱情,此也命也。

拒绝了无数聚会的邀请,见证了无数贵阳凌晨的灯火,秀璋和颜娜孜孜不倦写下这本书,作为朋友,着实替他们高兴。作为见证这本书从下笔到问世的读者,作为一个Python爱好者及有一定数据分析功底的学生,读这本书真是如晤老友———有大量的网络数据爬取实例,从Python 基础知识到正则表达式爬虫,再到BeautifulSoup、Selenium、Scrapy爬取技术,并结合数据存储、海量图集分析、自动登录等实例进行讲解。本书配以专业但不晦涩的语言,将原本枯燥的学术知识娓娓道来,此时的秀璋不是老师,而是一个熟悉的老友,用大家听得懂的话,解释着您需要了解的一切。同时,当您学习完Python网络数据爬取之后,还推荐您继续学习本套书中的另一本书———《Python网络数据爬取及分析从入门到精通(数据分析篇)》,进而更好地掌握与Python相关的知识。

总之,再多赞美的语言,都比不上滴滴汗水凝结的成功带来的满足与喜悦。愿您

合上书时,亦能感受到文中的真诚。

大疆公司宋籍文

2017年11月1日于深圳

推荐序二

当我被秀璋邀请为这套书写序时,我首先感到的是惊讶和荣幸。秀璋是我最好的朋友之一,在本科和硕士学习期间,我们一起在北京理工大学度过了六年的美好时光。秀璋是一个真诚而严谨的人,在学习、工作,甚至游戏中,他都力争完美,很开心看到他完成了这本著作。

在大学期间,每个人都知道他当老师的梦想,之后他也确实回到了家乡贵州,做着他喜欢的事情。我希望他能在教育领域保持着那份激情和初心,即使这是一个漫长而艰难的过程,但我相信他会用他的热情和爱意克服一切困难,教书育人。这本书就像他的一个“孩子”,他花了很多时间和精力撰写而成。它是一本关于Python技术的网络爬虫书籍,包括很多有用的实例,比如爬取在线百科、爬取技术博客或新浪微博数据、挖掘招聘网站或豆瓣网电影信息等。现在我们都知道一些与计算机科学相关的热门术语,如机器学习、大数据、人工智能等,而许多像SAP这样的公司也在关注这些新兴的技术,关注从海量信息中挖掘出有价值的信息,以便将来为客户提供更好的软件解决方案和服务,为公司决策提供支撑。

但我们从哪里开始学习这些新知识呢? 我想您可以从读这本书开始。在本书中,秀璋介绍了一种可用于数据挖掘等应用的基本技能———网络爬虫技术。一个网络爬虫通常是从互联网上提取有用的信息,它可以用来爬取结构化/非结构化文本、图片或各类数据。借助这些数据,我们可以构建自己的应用,例如Google知识图谱、舆情分析系统、智能家具应用等。本书既可以看作是Python数据爬取的入门教程,也可以当作指导手册或科普书。对于初学者来说,学习本书中的内容并不难,它就是一步步的教程,包括基本的Python语法、BeautifulSoup技术、Selenium 技术、Scrapy框架等。书中有许多生动而有趣的案例,以及详细的图形指南和代码注释,绝不会让您感到无聊。

本书是学习Python数据爬取的不二选择。同时推荐您继续学习本套书中的另一本书———《Python网络数据爬取及分析从入门到精通(分析篇)》,进而更好地掌握与Python相关的知识。

如果您真的是Python、网络爬虫、数据分析或大数据的忠实粉丝,请不要犹豫,学习Python就从本书开始吧!

SAP工程师数字商务服务徐溥

2017年11月23日于美国

Python网络数据爬取及分析从入门到精通（爬取篇）最新最全的试读、书评、目录、简介信息由Python中文网整理提供。

本文地址：https://cnpython.com/book/721

新手QQ群：979659372，欢迎加入。