R用户Python学习指南：数据科学方法 [Python for R Users A Data Science Approach]

cnpython2024-04-19 19:19:43 882

编程书籍推荐：R用户Python学习指南：数据科学方法 [Python for R Users A Data Science Approach]，由机械工业出版社2018-12-01月出版，本书发行作者信息： [印度] A. 奥利（A. Ohri）著，潘文捷李洪成译译此次为第1次发行，国际标准书号为：9787111611950，品牌为机工出版, 这本书采用平装开本为16开，附件信息：未知，纸张采为胶版纸，全书共有232页字数万字，值得推荐的Python Book。

此书内容摘要

掌握一门语言、一种工具已不足以应对当今的数据分析任务，本书旨在解决这一问题，针对了解R但不熟悉Python（或了解Python但不熟悉R）的从业人员，详解讲解了两种语言的编程技巧和转换方法，提供大量实战案例，不讨论理论细节。

关于此书作者

A. 奥利（A. Ohri） Decisionstats.com的创始人，数据科学家，访问量超过100万次的博主。他曾为多家创业公司提供咨询服务，涉及的领域包括数据分析服务、数据分析教育和数据项目外包等。目前的研究兴趣涵盖开源分析、社交媒体分析、云计算交互等。他还著有《R for Business Analytics》和《R for Cloud Computing》。

编辑们的推荐

暂无.

R用户Python学习指南：数据科学方法 [Python for R Users A Data Science Approach]图书的目录

译者序
前言
第1章Python、R和R数据科学简介1
1.1什么是Python1
1.2什么是R2
1.3什么是数据科学2
1.4数据科学家的未来3
1.5什么是大数据4
1.6商务分析与数据科学5
1.7数据科学家可用的工具6
1.8用于数据科学的Python添加包7
1.9Python和R之间的异同8
1.9.1为什么R用户应该了解有关Python的更多信息8
1.9.2为什么Python用户应该了解有关R的更多信息9
1.10教程9
1.11同时使用R和Python9
1.12其他软件和Python13
1.13将SAS与Jupyter一起使用13
1.14如何将Python和R用于大数据分析13
1.15什么是云计算15
1.16如何在云上使用Python和R15
1.17Python和R商业版本及其他替代版本16
1.17.1数据科学家的常用Linux命令17
1.17.2学习Git18
1.18数据驱动的决策32
1.18.1企业管理战略框架：非MBA和MBA的数据驱动决策指南32
1.18.2商务分析的其他框架37
参考文献40
第2章数据输入41
2.1pandas中的数据输入41
2.2网页抓取数据输入44
2.3来自RDBMS的数据输入48
2.3.1Windows教程50
2.3.2安装50
2.3.3配置ODBC52
第3章数据检查和数据质量62
3.1数据格式62
3.1.1将字符串转换为日期和时间63
3.1.2将数据框转换为NumPy数组并返回Python66
3.2数据质量68
3.3数据检查71
3.4数据选择74
3.4.1随机选择数据76
3.4.2条件选择76
3.5R中的数据检查79
3.5.1来自R ggplot2添加包中的diamond数据集83
3.5.2修改R中的日期格式和字符串86
3.5.3管理R中的字符串88
参考文献88
第4章探索性数据分析89
4.1根据分析分组89
4.2数值数据89
4.3分类数据91
第5章统计建模102
5.1回归的概念102
5.1.1OLS103
5.1.2R方103
5.1.3p值104
5.1.4异常值104
5.1.5多重共线性和异方差性104
5.2相关关系不是因果关系105
5.2.1关于数据科学家统计的说明106
5.2.2中心趋势的度量107
5.2.3分散度的度量107
5.2.4概率分布110
5.3R和Python中的线性回归114
5.4R和Python中的Logistic回归132
5.4.1其他概念136
5.4.2ROC曲线和AUC137
5.4.3偏差与方差137
参考文献138
第6章数据可视化139
6.1数据可视化的概念139
6.1.1数据可视化的历史139
6.1.2Anscombe案例研究140
6.1.3加载添加包141
6.1.4获得均值和标准差142
6.1.5结论1144
6.1.6数据可视化144
6.1.7结论2146
6.2Tufte关于数据可视化的工作147
6.3Stephen Few关于仪表盘的设计147
6.4基本绘图149
6.5高级绘图156
6.6交互式绘图160
6.7空间分析160
6.8R中的数据可视化160
6.8.1关于RStudio IDE共享R代码的注意事项166
6.8.2关于共享Jupyter笔记的注意事项167
6.8.3特别说明：关于Python的完整教程168
参考文献180
第7章机器学习变得更容易181
7.1删除最终决策树模型中不需要的列186
7.2时间序列207
7.3关联分析211
7.4清洗语料库并制作词袋221
7.4.1聚类分析224
7.4.2Python中的聚类分析224
第8章结论和总结233

部分内容试读

我从2003年起开始了销售汽车的职业生涯。这是我在获得工商管理硕士学位2年和工程学硕士学位4年后的第一份工作。另外，我有2年的时间先后以一名军官学员（1年内退学）和物理学家（1年后退学）的身份进入军校。很久以后，我在诺克斯维尔攻读博士学位（数理统计），1年后退学。在工程学硕士、工商管理硕士甚至是研究生学院，我的统计理论都做得不好。我只对统计软件感兴趣，幸运的是，在使用软件方面我做得还不错。因此，在2004年，我不再销售汽车，而是开始为通用电气基于印度的离岸公司编写统计软件。
我使用名为Base SAS的软件以及SAS语言。由SAS软件公司提供的软件和编程语言的帮助系统非常好，因此整天摆弄数据和代码就能够赚钱，玩得很开心。经过几年的工作变动后，当我开始创建自己的公司时，我遇到了开源软件。我真的很喜欢作为一种语言和一家公司的SAS，但是在公司初创阶段，我无法承担它的费用，而2007年时，SAS大学版并没有出现。因为需要钱来支付我的小孩Kush的尿布，而数据分析是上帝给我的唯一礼物，因此我转向了R。
R、Open Office和Ubuntu Linux是我进入开源统计计算领域便开始使用的三个工具，并坚持至今。2007年，我创立了自己的公司—商业分析写作和咨询公司Decisionstats.com。2009年，我获得助学金进入田纳西大学，那年冬季我又在硅谷实习了几个星期，除了统计系外，我还在计算机科学系学习了图形设计和遗传算法等多门课程，其后因健康原因退学。跨领域培训帮助我以各种方式思考并能找到简单的解决方案，我将永远感谢田纳西大学统计与计算机科学系的友善的朋友们。
一旦掌握了解答Linux各种疑难的技巧和R的面向对象编程思想，我就可以为数据分析项目提供咨询服务了。那时候我们称之为商务分析，但今天我们称之为数据科学。
由于经常忘事，包括想不起来把代码保存在哪，因此我开始写博客，把有用的事情记录下来，并且这也可能对其他人有用。若干年后我才明白，在现实生活中真正对事业有帮助的，并不是我所知道的东西，而是我所认识的人。因此，我开始采访从事数据分析和应用R的人，并且我的博客访问人数也开始增加。我的博客哲学仍然是—博客文章应该是有用的，它应该是独一无二的，也应该是有趣的。2016年，我在Decisionstats.com积累了1 000 000次访问次数—这对我来说也是一次令人惊讶的转变。我非常感谢同意接受我采访的100多人。
当然，2007年和2008年只是刚开始准备分析博客。几年后，我有足够的材料来编写一本书，并且也赢得了出版商的信任。2012年，我出版了第一本书，2014年又出版了第二本书。2016年，我的第一本书的中文版出版了。让我惊讶的是，我的第二本书的评论出现在杂志《Journal of Statistical Software》上。
在出版了两本有关R的书籍后，我通过咨询和培训指导了许多创业公司，让咨询客户参与到现实世界的问题中，并在社交媒体上成了一个众人皆知的名字，但我仍然觉得自己需要了解更多。
数据变得越来越多。知道如何使用一台机器在序列化代码中进行小型数据分析是不够的，也许是时候在多台机器上编写大数据分析的并行代码了。而且，统计人员和计算机科学之间的分歧让我着迷，因为我将数据视为数据，它们就是需要解决的问题。正如Eric S. Raymond在关于黑客的态度中所写的：“世界充满了有趣的问题。”
还有一种替代R的诱惑和智慧的吸引力，那就是Python，它自身带有“电池”（据称）。
一旦我的科学好奇心受到激发，便开始学习Python。我发现Python与R相比非常好，但也非常糟糕。它的社区有不同的规则和行为（开源开发者的激情世界总是动荡不安）。但语言本身是非常不同的。我不在乎语言，我喜欢科学。但是如果像我这样至少知道如何在R中编写代码的人，发现在Python中重做同样的事情非常困难，我想也许其他人也面临着这个转变的问题。对于大数据和某些特定用例，Python在速度方面表现更好。速度很重要，不管摩尔定律有多强，两者共同使用可以让你更容易地编写代码。R似乎也变成了一种语言，我所做的只是导入一个添加包并运行带有调整参数的函数。随着R在科学领域取代SAS语言成为主流，SAS仍然是企业统计语言，而Python则成为像我这样的匿名红帽黑客冒险钻研和探索的东西。
随着互联网逐渐扩展到物联网，我觉得新兴的数据科学家至少应该在分析中知道两种语言，以便他们的职业生涯能够相对平稳。当企业考虑使用哪种软件来为模型建模，以及在生产环境中部署哪些软件时，这也提供了一个开放的选择。
致谢
感谢许多在Python和R社区工作的人员，是他们使本书成为可能。特别感谢Predictive Analytics Conference的Eric Siegel博士和JMP的John Sall。感谢2012～2016年的所有学生。
如果没有MadhurBatra的指导和后勤支持，这本书不会完成。在技术方面，感谢他的实习生Yashika和ChandanRoutray（IIT Kharagpur）以及协助他的DecisionStats团队的投入和辛勤工作。他的核心研究人员F.Xavier为案例研究提供了宝贵的帮助。
范围
本书将Python作为数据科学实践者的平台，包括有抱负的新兴数据科学家。这本书的目标读者是那些知道各种专业知识的R程序员，但即使是那些不懂任何编程技巧的人也会发现它的价值。它的目标读者不是研究社区和研究部门的成员。本书的重点在于简单的教程和可实践的分析，而不是理论。我还试图将它与R代码结合起来，为学习者提供对比的方法。
第1章
这一章向读者介绍了Python和R语言的基础知识，并将Python与R进行比较。同时，列出了在这两种语言中使用的函数和添加包，还列出了一些我认为数据科学家应该意识到的管理模式。
第2章
介绍人们在Python中获取各种量级数据的方法和速度，包括网络抓取、数据库、noSQL数据和电子表格数据。
第3章
介绍了Python中验证数据质量的方法。
第4章
介绍基本的数据探索和数据汇总，并按照标准分组汇总数据。
第5章
基于统计分析创建模型，包括OLS回归，这些统计分析对于在工业中建立倾向模型（propensity model）非常有用。
第6章
介绍检查原始数据和汇总数据的可视化方法。
第7章
介绍模型构建中常用的数据挖掘方法。这里主要关注有监督和无监督的方法，并进一步强调回归和聚类技术。时间序列预测部分有助于用户进行时间序列预测。文本挖掘部分介绍了文本挖掘方法和自然语言处理。Web分析着眼于使用Python来分析Web数据。高级数据科学着眼于更新案例的方法和技术，包括启用云计算的大数据分析、社交网络分析、物联网等。
第8章
列出了本书中我们学习和尝试实现的内容，以及对R和Python未来发展的看法，包括统计计算的发展，并使数据科学成为未来可靠的立足点。
目的
本书是从实际实践案例的角度撰写的，旨在帮助人们在追求卓越数据科学的过程中驾驭多种开源语言。我认为，没有一种软件或语言能够一直解决各种数据问题。优化的学习方法比学习统计软件的思想方法更有用。过去的思维习惯必须调整以面对未来知识增长的速度。
计划
我将继续使用截图作为导读工具，并将利用我在数据科学咨询方面的经验，突出实际的数据分析问题。这是因为选择正确的工具和技术甚至添加包都不是那么耗时，但是数据和业务问题的多样性可能会花费数据科学家的时间，从而影响他的判断和解决方案的质量。
目标读者
这是一本为即将成为数据科学家和已经成为数据科学家（如使用SPSS、R或Julia等其他语言的数据科学家）的人编写的书。我致力于解决数据中的实际问题。因此，这本书的理论内容很少。
后记
我专注于实际解决方案。因此，我将继续假设用户希望以最低的成本和最高的准确性、稳健性和易用性进行数据挖掘或分析。一个真正的科学家（无论是如何成为的）总是对数据和选项持开放态度。我发现，信息不对称和名称混乱使得读者对R与Python相对其他语言的真正优势产生了混淆。本书中的说明和教程不保证可以解决任何领域的问题，读者需自行承担风险。
关于本书格式需要特别说明的是，我大多是在Google Docs上撰写的，但本书却使用了排版软件LaTex的GUI 版本LyX，我承认对此并不擅长。我希望本书能够被商业用户、技术用户、热衷于了解更多关于R和Python的首席技术官、使用开源分析以及希望成为数据科学家的学生阅读。R以出色的图形而闻名，但不适合通过其原有的方式直接使用开源版本的较大数据集。Python在大数据集和灵活性方面很出色，但它一直希望像R一样拥有大量可用的良好统计库。
企业首席技术官可以通过混合云和混合开源软件使用开源软件和硬件，从而极大地降低成本。
Python之禅
Tim Peters（来源：https://www.python.org/dev/peps/pep-0020/）
Beautiful is better than ugly.
优美胜于丑陋（Python以编写优美的代码为目标）。
Explicit is better than implicit.
明了胜于晦涩（优美的代码应当是明了的，命名规范，风格相似）。
Simple is better than complex.
简洁胜于复杂（优美的代码应当是简洁的，不要有复杂的内部实现）。
Complex is better than complicated.
复杂胜于凌乱（如果复杂不可避免，那么代码间也不能有难懂的关系，要保持接口简洁）。
Flat is better than nested.
扁平胜于嵌套（优美的代码应当是扁平的，不能有太多的嵌套）。
Sparse is better than dense.
间隔胜于紧凑（优美的代码有适当的间隔，不要奢望一行代码解决问题）。
Readability counts.
可读性很重要（优美的代码是可读的）。
Special cases aren抰 special enough to break the rules.
Although practicality beats purity.
即便假借特例的实用性之名，也不可违背这些规则（这些规则至高无上）。
Errors should never pass silently.Unless explicitly silenced.
不要包容错误，除非你确定需要这样做（精准地捕获异常，不写except:pass风格的代码）。
In the face of ambiguity, refuse the temptation to guess.
There should be one—and preferably only one—obvious way to do it.
Although that way may not be obvious at first unless you抮e Dutch.
当存在多种可能时，不要尝试去猜测，而是尽量找一种，最好是唯一一种明显的解决方案（如果不确定，就用穷举法）。虽然这并不容易，因为你不是 Python 之父。
Now is better than never.Although never is often better than righ

关于此书评价

暂无.

书摘内容

暂无.

R用户Python学习指南：数据科学方法 [Python for R Users A Data Science Approach]最新最全的试读、书评、目录、简介信息由Python中文网整理提供。

本文地址：https://cnpython.com/book/714

新手QQ群：979659372，欢迎加入。