Python中文网

Python数据科学入门

cnpython400

编程书籍推荐:Python数据科学入门,由人民邮电出版社2018-05-01月出版,本书发行作者信息: [美] 约翰·保罗·穆勒(John Paul Mueller),[意] 卢卡·马萨罗(Luca Massaron) 著,徐旭彬 译此次为第1次发行, 国际标准书号为:9787115479624,品牌为异步图书, 这本书采用平装开本为16开,附件信息:未知,纸张采为胶版纸,全书共有372页字数万 字,值得推荐的Python Book。

此书内容摘要

本书的目标是介绍如何使用Python 语言及其工具,解决和数据科学所关联的复杂任务。
全书共6 个部分,分22 章,涵盖了Python 数据科学基础知识,数据的采集、整理、整形、应用,数据的可视化,数据分析和处理,数据学习,以及和数据科学相关的10 个话题等。本书将重点放在使用正确的工具上,教读者如何使用Anaconda、atPlotLib、NumPy、pandas、Scikit-learn 等常用的工具来解决数据科学的相关问题。
本书适合对数据科学的知识和应用方法感兴趣的读者阅读,特别适合有志于学习Python 数据分析和处理的读者学习参考。

关于此书作者

约翰·保罗·穆勒(John Paul Mueller)是一名顾问、应用开发人员、作家和技术编辑,已经写了超过600篇的文章和97本书。卢卡·马萨罗(Luca Massaron)是一名数据科学家,专注于多变量统计分析、机器学习和客户洞察力等领域。他是意大利Web听众分析方面的先驱,是世界知名的数据科学家之一。

编辑们的推荐

Python是适用于数据科学的编程语言。即使你初次接触Python语言,本书也能教会你通过Python编程来获取、组织、处理和分析大量的信息并识别出趋势和模式。从安装Python开始,一直到执行交叉验证,快用本书开始学习之旅吧!
看看Python为什么适用于数据科学——浏览数据科学管道并学习Python的基本功能。
安装设置——安装Python、下载数据集和样例代码并用数字和逻辑来工作,创建函数,存储和索引数据。
可视化——探索MatPlotLib,创建图表,包括饼图、条形图、直方图和散点图。
深入探索——学习类和多进程,为数值型的数据定义描述性的统计量并应用于可视化。
数据处理——研究降维解决方案,执行层次聚类并学习检测数据中的异常点。
让数据告诉你一些信息——使用线性模型并执行交叉验证、选取和优化。

本书包含以下精彩内容:
· Python数据分析编程基础
· 有关Python开发环境的一切
· 如何使用随机分布和回归模型
· 对从Web上获取数据的建议
· 使用NumPy、pandas和SciPy来做什么
· 用HTML页面来工作的提示建议
· 如何来创建交互型的图表表达
· 十个必不可少的数据资源

Python数据科学入门图书的目录

第 1 部分 开启Python 数据科学之门 1
第1 章 探索数据科学与Python之间的匹配度3
1.1定义21 世纪最诱人的工作5
1.1.1思考数据科学的出现5
1.1.2概述数据科学家的核心竞争力6
1.1.3连接数据科学和大数据7
1.1.4理解编程的角色7
1.2创建数据科学管道8
1.2.1准备数据8
1.2.2执行探索性的数据分析8
1.2.3从数据中学习8
1.2.4可视化9
1.2.5获得洞察力和数据产品9
1.3理解Python 在数据科学中的角色9
1.3.1思考数据科学家的多面性9
1.3.2使用一门多用途、简单而高效的语言来工作10
1.4快速学会使用Python11
1.4.1加载数据11
1.4.2训练模型12
1.4.3显示结果13
第2 章 介绍Python 的能力和奇迹14
2.1为什么是Python15
2.1.1抓住Python 的核心哲学16
2.1.2探索现在和未来的开发目标16
2.2使用Python 工作17
2.2.1品味语言17
2.2.2理解缩进的需求17
2.2.3用命令行或者IDE 工作18
2.3运行快速原型和实验22
2.4考虑执行速度23
2.5可视化能力24
2.6为数据科学使用Python生态系统26
2.6.1使用SciPy 来访问用于科学的工具26
2.6.2使用NumPy 执行基础的科学计算26
2.6.3使用pandas 来执行数据分析26
2.6.4使用Scikit-learn 实现机器学习27
2.6.5使用matplotlib 来标绘数据27
2.6.6使用Beautiful Soup来解析HTML 文档27
第3章 为数据科学设置Python29
3.1考虑现成的跨平台的用于科学的分发包30
3.1.1获取Continuum AnalyticsAnaconda31
3.1.2获取Enthought CanopyExpress32
3.1.3获取pythonxy32
3.1.4获取WinPython33
3.2在Windows 上安装Anaconda33
3.3在Linux 上安装Anaconda36
3.4在Mac OS X 上安装Anaconda37
3.5下载数据集和示例代码38
3.5.1使用IPython Notebook39
3.5.2定义代码仓库40
3.5.3理解本书中所使用的数据集45
第4章 复习Python 基础47
4.1使用数字和逻辑来工作49
4.1.1执行变量赋值50
4.1.2做算术运算50
4.1.3使用布尔表达式来比较数据52
4.2创建和使用字符串54
4.3与日期交互55
4.4创建并使用函数56
4.4.1创建可复用函数56
4.4.2以各种不同的方式调用函数58
4.5使用条件和循环语句61
4.5.1使用if 语句做决策61
4.5.2使用嵌套决策在多个选项间做出选择62
4.5.3使用for 执行重复任务63
4.5.4使用while 语句64
4.6使用Sets、Lists 和Tuples来存储数据64
4.6.1在set 上执行操作65
4.6.2使用list 来工作66
4.6.3创建和使用Tuple67
4.7定义有用的迭代器69
4.8使用Dictionaries 来索引数据70
第2 部分 开始着手于数据71
第5章 使用真实数据工作73
5.1上传、流化并采样数据74
5.1.1把少量数据上传至内存75
5.1.2把大量数据流化放入内存76
5.1.3采样数据77
5.2以结构化的平面文件形式来访问数据78
5.2.1从文本文件中读取79
5.2.2读取CSV 定界的格式80
5.2.3读取Excel 和其他的微软办公文件82
5.3以非结构化文件的形式来发送数据83
5.4管理来自关系型数据库中的数据86
5.5与来自NoSQL 数据库中的数据进行交互87
5.6访问来自Web 的数据88
第6章 整理你的数据92
6.1兼顾NumPy 和pandas93
6.1.1知道什么时候使用NumPy93
6.1.2知道什么时候使用pandas93
6.2验证你的数据95
6.2.1了解你的数据中有什么95
6.2.2去重96
6.2.3创建数据地图和数据规划97
6.3处理分类变量99
6.3.1创建分类变量100
6.3.2重命名层级102
6.3.3组合层级102
6.4处理你数据中的日期104
6.4.1格式化日期和时间值104
6.4.2使用正确的时间转换105
6.5处理丢失值106
6.5.1寻找丢失的数据106
6.5.2为丢失项编码107
6.5.3为丢失数据估值108
6.6交叉分析:过滤并选取数据109
6.6.1切分行109
6.6.2切分列110
6.6.3切块110
6.7连接和变换111
6.7.1增加新的实例和变量112
6.7.2移除数据113
6.7.3排序和搅乱114
6.8在任何层次聚合数据115
第7章 数据整形117
7.1使用HTML 页面来工作118
7.1.1解析XML 和HTML118
7.1.2使用XPath 来抽取数据119
7.2使用原始文本来工作120
7.2.1处理Unicode 码120
7.2.2词干提取和停止词移除122
7.2.3介绍正则表达式124
7.3使用并超越词袋模型126
7.3.1理解词袋模型127
7.3.2用n 元文法模型(n-grams)工作128
7.3.3实现TF-IDF 变换130
7.4使用图数据来工作131
7.4.1理解邻接矩阵131
7.4.2使用NetworkX 基础132
第8章 将你所知的付诸于实践134
8.1将问题和数据置于上下文中去理解135
8.1.1评估数据科学问题136
8.1.2研究方案136
8.1.3构想出假设137
8.1.4准备数据138
8.2思考创建特征的艺术138
8.2.1定义特征创建138
8.2.2组合变量139
8.2.3理解分级和离散化140
8.2.4使用指示变量140
8.2.5变换分布140
8.3在数组上执行运算141
8.3.1使用向量化141
8.3.2在向量和矩阵上执行简单的算法142
8.3.3执行矩阵向量乘法142
8.3.4执行矩阵乘法143
第3部分 把不可见的东西可视化145
第9章 获得MatPlotLib 的速成课程147
9.1开始使用图表148
9.1.1定义标图148
9.1.2画多线条和多标图149
9.1.3保存你的工作149
9.2设置轴、刻度和网格150
9.2.1得到轴151
9.2.2格式化轴151
9.2.3添加网格152
9.3定义线条外观153
9.3.1使用线条样式工作153
9.3.2使用颜色155
9.3.3添加标记155
9.4使用标签、注释和图例157
9.4.1添加标签158
9.4.2注释图表158
9.4.3创建图例159
第10 章 将数据可视化161
10.1选择合适的图表162
10.1.1用饼图展示整体的局部组成162
10.1.2用柱状图来创建比较163
10.1.3用直方图来展示分布164
10.1.4使用箱线图来描绘组166
10.1.5使用散点图看数据模式167
10.2创建高级的散点图168
10.2.1描绘组群168
10.2.2展示关联169
10.3标绘时间序列171
10.3.1在轴上表示时间171
10.3.2标绘随时间的趋势172
10.4标绘地理数据174
10.5把图做可视化176
10.5.1开发无向图176
10.5.2开发有向图177
第11 章 理解工具180
11.1使用IPython 控制台181
11.1.1与屏幕文本交互181
11.1.2改变窗口外观182
11.1.3获取Python 帮助184
11.1.4获取IPython 帮助185
11.1.5使用魔法函数186
11.1.6探索对象187
11.2使用IPython Notebook188
11.2.1使用样式来工作189
11.2.2重启内核190
11.2.3恢复检查点191
11.3执行多媒体和图像整合192
11.3.1嵌入标图和其他图片192
11.3.2从在线网站上加载例子193
11.3.3获取在线图像和多媒体193
第4部分 处理数据195
第12 章 拓展Python 的能力197
12.1玩转Scikit-learn198
12.1.1理解Scikit-learn 中的类198
12.1.2为数据科学定义应用199
12.2执行散列法202
12.2.1使用散列函数202
12.2.2演示散列法203
12.2.3使用确定性选择来工作205
12.3考虑计时和性能206
12.3.1用timeit 来做基线检测207
12.3.2使用内存剖析器来工作209
12.4并行运行210
12.4.1执行多核并行化211
12.4.2演示多核处理212
第13 章 探索数据分析214
13.1EDA 方法215
13.2为Numeric 数据定义描述性的统计量216
13.2.1度量集中化趋势217
13.2.2测量方差和区间217
13.2.3使用分位数来工作218
13.2.4定义正态化度量219
13.3为分类型数据计数220
13.3.1理解频率220
13.3.2创建列联表221
13.4为EDA 创建应用可视化222
13.4.1检查箱线图222
13.4.2在箱线图之后执行t检验223
13.4.3观察平行坐标224
13.4.4为分布作图225
13.4.5标绘散点图226
13.5理解相关性228
13.5.1使用协方差和关联性228
13.5.2使用非参数相关性230
13.5.3考虑表格的卡方检验230
13.6修改数据分布231
13.6.1使用正态分布232
13.6.2创建Z 评分标准化232
13.6.3转换其他的著名分布232
第14 章 降维234
14.1理解SVD235
14.1.1寻求降维236
14.1.2使用SVD 来测量不可见的信息237
14.2执行因子和主成分分析238
14.2.1考虑心理测量模型239
14.2.2寻找隐因子239
14.2.3使用成分,而不是因子240
14.2.4达成降维240
14.3理解一些应用241
14.3.1用PCA 来识别人脸241
14.3.2用NMF 来提取主题244
14.3.3推荐电影246
第15 章 聚类249
15.1用K-means 聚类251
15.1.1理解基于质心的算法251
15.1.2创建使用图像数据的例子253
15.1.3寻找优化解决方案254
15.1.4大数据聚类257
15.2执行层次聚类258
15.3超越圆形簇:DBScan261
第16 章 检测数据中的异常点265
16.1考虑异常检测266
16.1.1找出更多可能出错的地方267
16.1.2理解异常数据和新奇的数据268
16.2检验简单的单变量法268
16.2.1利用高斯分布270
16.2.2做出假设并检验270
16.3开发多变量方法271
16.3.1使用主成分分析272
16.3.2使用聚类分析273
16.3.3使用SVM 将异常检测自动化274
第5部分 从数据中学习275
第17 章 探索4 个简单又有效的算法277
17.1猜测数字:线性回归277
17.1.1定义线性模型家族278
17.1.2使用更多变量279
17.1.3理解限制和问题280
17.2转移到逻辑回归281
17.2.1应用逻辑回归281
17.2.2考虑有更多类的时候282
17.3让事情像朴素贝叶斯(Na veBayes)一样简单283
17.3.1发现朴素贝叶斯并不是那么朴素285
17.3.2预测文本分类286
17.4使用最近邻来延迟学习287
17.4.1观察邻居之后做预测288
17.4.2明智地选择k 参数290
第18 章 执行交叉验证、选择和优化291
18.1关于拟合模型问题的思考292
18.1.1理解偏差和方差293
18.1.2定义挑选模型的策略294
18.1.3划分训练集和测试集296
18.2交叉验证299
18.2.1使用k 折交叉验证299
18.2.2复杂数据的分层采样300
18.3像专业人士那样选择变量302
18.3.1通过单变量度量来选择302
18.3.2使用贪婪搜索303
18.4提升你的超参数304
18.4.1实现网格搜索305
18.4.2尝试随机化搜索309
第19 章 用线性和非线性技巧增加复杂性311
19.1使用非线性变换312
19.1.1执行变量变换312
19.1.2创建变量间的相互作用314
19.2正则化线性模型317
19.2.1依靠Ridge 回归(L2)318
19.2.2使用Lasso(L1)319
19.2.3利用规范化319
19.2.4组合L1 和L2:Elasticnet320
19.3逐块与大数据战斗320
19.3.1当数据过多时来做决定321
19.3.2实现随机梯度下降321
19.4理解支持向量机323
19.4.1依靠一种计算方法324
19.4.2修正很多新参数327
19.4.3用SVC 分类328
19.4.4走向非线性是简单的333
19.4.5用SVR 来执行回归334
19.4.6用SVM 创建随机(stochastic)解决方案336
第20 章 理解多数的力量340
20.1以朴素的决策树开始341
20.1.1理解决策树341
20.1.2创建分类和回归树343
20.2让机器学习得以应用346
20.2.1使用随机森林分类器来工作348
20.2.2使用随机森林回归器来工作349
20.2.3优化随机森林349
20.3Boosting 预测351
20.3.1了解多个弱预测器将胜出351
20.3.2创建梯度推进分类器352
20.3.3创建梯度推进回归器353
20.3.4使用GBM 超参数353
第6部分 十大系列专题355
第21 章 10 个必不可少的数据科学资源集357
21.1用数据科学周刊获得深入了解358
21.2在U Climb Higher 上获取资源列表358
21.3用KDnuggets 来获得一个良好的起点359
21.4访问数据科学中心上的巨型资源列表359
21.5从专家处获得开源数据科学情报360
21.6用Quora 来定位到免费的学习资源360
21.7在Conductrics 上接收高级主题的帮助361
21.8从立志数据科学家中学习新技巧361
21.9在AnalyticBridge 上寻找数据智能和分析资源362
21.10专注于Jonathan Bower的开发者资源362
第22 章 10 个你应该接受的挑战364
22.1迎接数据科学伦敦+Scikit-learn 的挑战365
22.2预测泰坦尼克号上的幸存者366
22.3寻找满足你需求的Kaggle竞赛366
22.4磨练你的过拟合策略367
22.5涉猎MovieLens 数据集367
22.6清除垃圾邮件368
22.7使用手写信息工作369
22.8使用图片工作370
22.9分析Amazon.com 审查371
22.10与巨图交互371

部分内容试读

暂无.

关于此书评价

暂无.

书摘内容

《Python数据科学入门》:
想象下数据点连接到其他数据点,例如一个Web页面通过超链接连接到另一个Web页面。这些数据点中的每一个就是一个结点。结点使用链接来相互连接。不是每个结点都链接到其他每—个结点上,所以结点的连接变得重要。通过分析结点和它们的链接,你可以执行数据科学中的各种类型的有趣任务,例如使用街道和高速公路定义一条从工作地点到你家的最优路线。以下小节描述了图是如何工作的以及如何使用它们来执行基础的任务。
7.4.1理解邻接矩阵
邻接矩阵表示图结点之间的连接。当一个结点与另一个结点之间有连接时,矩阵把它表示成一个大于0的值。矩阵中连接的精确表达取决于图是有向的(关心连接的方向)还是无向的。
很多在线的例子具有的问题就是作者为了解释而让它们保持简单。无论如何,现实世界中的图通常是巨大的,不可能仅仅通过可视化来做简单分析。当考虑街道交叉时(街道就是自己的连接),只要想一想甚至是一个小城市所拥有的结点数量。很多其他的图更大得多,仅仅看着它们将永远不会暴露出任何有趣的模式。数据科学家把使用邻接矩阵而出现的任何复杂图中的问题称为毛线球(hairball)。分析邻接矩阵的一个关键就是以特定的方式来对它们做排序。例如,你可能选择根据数据的属性而不是实际的连接来对数据做排序。
……

Python数据科学入门最新最全的试读、书评、目录、简介信息由Python中文网整理提供。