Python中文网

Python数据挖掘入门与实践

cnpython1010

编程书籍推荐:Python数据挖掘入门与实践,由人民邮电出版社2016-07-01月出版,本书发行作者信息: [澳] Robert Layton 著,杜春晓 译此次为第1次发行, 国际标准书号为:9787115427106,品牌为人民邮电出版社, 这本书采用平装开本为16开,附件信息:未知,纸张采为胶版纸,全书共有236页字数万 字,值得推荐的Python Book。

此书内容摘要

本书作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社会媒体挖掘,等等。本书也涉及神经网络、深度学习、大数据处理等内容。
本书面向愿意学习和尝试数据挖掘的程序员。

关于此书作者

Robert Layton,计算机科学博士,网络犯罪问题和文本分析方面的专家。多年来一直热衷于Python编程,参与过scikit-learn库等很多开源库的开发,曾担任2014年度“谷歌编程之夏”项目导师。他曾与全球几大数据挖掘公司密切合作,挖掘真实数据并研发相关应用。他的公司dataPipeline为多个行业提供数据挖掘和数据分析解决方案。

编辑们的推荐

在数据规模急速膨胀的大数据时代,数据挖掘这项甄别重要数据的核心技术正发挥越来越重要的作用。它将赋予你解决实际问题的“超能力”:预测体育赛事结果、投放广告、根据作品的风格解决作者归属问题,等等。
本书使用简单易学且拥有丰富第三方库和良好社区氛围的Python语言,由浅入深,以真实数据作为研究对象,真刀实枪地向读者介绍Python数据挖掘的实现方法。通过本书,读者将迈入数据挖掘的殿堂,透彻理解数据挖掘基础知识,掌握解决数据挖掘实际问题的杰出实践!

Python数据挖掘入门与实践图书的目录

第1章 开始数据挖掘之旅 1
1.1数据挖掘简介1
1.2使用Python 和IPython Notebook2
1.2.1安装Python2
1.2.2安装IPython4
1.2.3安装scikit-learn 库5
1.3亲和性分析示例5
1.3.1什么是亲和性分析5
1.3.2商品推荐6
1.3.3在NumPy 中加载数据集6
1.3.4实现简单的排序规则8
1.3.5排序找出最佳规则10
1.4分类问题的简单示例12
1.5什么是分类12
1.5.1准备数据集13
1.5.2实现OneR 算法14
1.5.3测试算法16
1.6小结18
第2章用scikit-learn 估计器分类19
2.1scikit-learn 估计器19
2.1.1近邻算法20
2.1.2距离度量20
2.1.3加载数据集22
2.1.4努力实现流程标准化24
2.1.5运行算法24
2.1.6设置参数25
2.2流水线在预处理中的应用27
2.2.1预处理示例28
2.2.2标准预处理28
2.2.3组装起来29
2.3流水线29
2.4小结30
第3章用决策树预测获胜球队31
3.1加载数据集31
3.1.1采集数据31
3.1.2用pandas 加载数据集32
3.1.3数据集清洗33
3.1.4提取新特征34
3.2决策树35
3.2.1决策树中的参数36
3.2.2使用决策树37
3.3NBA 比赛结果预测37
3.4随机森林41
3.4.1决策树的集成效果如何42
3.4.2随机森林算法的参数42
3.4.3使用随机森林算法43
3.4.4创建新特征44
3.5小结45
第4章用亲和性分析方法推荐电影46
4.1亲和性分析46
4.1.1亲和性分析算法47
4.1.2选择参数47
4.2电影推荐问题48
4.2.1获取数据集48
4.2.2用pandas 加载数据49
4.2.3稀疏数据格式49
4.3Apriori 算法的实现50
4.3.1Apriori 算法51
4.3.2实现52
4.4抽取关联规则54
4.5小结60
第5章用转换器抽取特征62
5.1特征抽取62
5.1.1在模型中表示事实62
5.1.2通用的特征创建模式64
5.1.3创建好的特征66
5.2特征选择67
5.3创建特征71
5.4创建自己的转换器75
5.4.1转换器API76
5.4.2实现细节76
5.4.3单元测试77
5.4.4组装起来79
5.5小结79
第6章使用朴素贝叶斯进行社会
媒体挖掘80
6.1消歧80
6.1.1从社交网站下载数据81
6.1.2加载数据集并对其分类83
6.1.3Twitter 数据集重建87
6.2文本转换器90
6.2.1词袋 .91
6.2.2N 元语法92
6.2.3其他特征93
6.3朴素贝叶斯93
6.3.1贝叶斯定理93
6.3.2朴素贝叶斯算法94
6.3.3算法应用示例95
6.4应用96
6.4.1抽取特征97
6.4.2将字典转换为矩阵98
6.4.3训练朴素贝叶斯分类器98
6.4.4组装起来98
6.4.5用F1 值评估99
6.4.6从模型中获取更多有用的
特征100
6.5小结102
第7章用图挖掘找到感兴趣的人104
7.1加载数据集104
7.1.1用现有模型进行分类106
7.1.2获取Twitter 好友信息107
7.1.3构建网络110
7.1.4创建图112
7.1.5创建用户相似度图114
7.2寻找子图117
7.2.1连通分支117
7.2.2优化参数选取准则119
7.3小结123
第8章用神经网络破解验证码124
8.1人工神经网络124
8.2创建数据集127
8.2.1绘制验证码127
8.2.2将图像切分为单个的字母129
8.2.3创建训练集130
8.2.4根据抽取方法调整训练数据集131
8.3训练和分类132
8.3.1反向传播算法134
8.3.2预测单词135
8.4用词典提升正确率138
8.4.1寻找最相似的单词138
8.4.2组装起来139
8.5小结140
第9章作者归属问题142
9.1为作品找作者142
9.1.1相关应用和使用场景143
9.1.2作者归属143
9.1.3获取数据144
9.2功能词147
9.2.1统计功能词148
9.2.2用功能词进行分类149
9.3支持向量机150
9.3.1用SVM 分类 ..........................151
9.3.2内核151
9.4字符N 元语法152
9.5使用安然公司数据集153
9.5.1获取安然数据集153
9.5.2创建数据集加载工具154
9.5.3组装起来158
9.5.4评估158
9.6小结160
第10章新闻语料分类161
10.1获取新闻文章161
10.1.1使用Web API 获取数据162
10.1.2数据资源宝库reddit164
10.1.3获取数据165
10.2从任意网站抽取文本167
10.2.1寻找任意网站网页中的主要
内容167
10.2.2组装起来168
10.3新闻语料聚类170
10.3.1k-means 算法171
10.3.2评估结果173
10.3.3从簇中抽取主题信息175
10.3.4用聚类算法做转换器175
10.4聚类融合176
10.4.1证据累积176
10.4.2工作原理179
10.4.3实现180
10.5线上学习181
10.5.1线上学习简介181
10.5.2实现182
10.6小结184
第11章用深度学习方法为图像中的
物体进行分类185
11.1物体分类185
11.2应用场景和目标 ................................185
11.3深度神经网络189
11.3.1直观感受189
11.3.2实现189
11.3.3Theano 简介190
11.3.4Lasagne 简介191
11.3.5用nolearn 实现神经网络194
11.4GPU 优化197
11.4.1什么时候使用GPU 进行
计算198
11.4.2用GPU 运行代码198
11.5环境搭建199
11.6应用201
11.6.1获取数据201
11.6.2创建神经网络202
11.6.3组装起来204
11.7小结205
第12章大数据处理206
12.1大数据206
12.2大数据应用场景和目标207
12.3MapReduce208
12.3.1直观理解209
12.3.2单词统计示例210
12.3.3Hadoop MapReduce212
12.4应用212
12.4.1获取数据213
12.4.2朴素贝叶斯预测215
12.5小结226
附录接下来的方向227

部分内容试读

暂无.

关于此书评价

暂无.

书摘内容

暂无.

Python数据挖掘入门与实践最新最全的试读、书评、目录、简介信息由Python中文网整理提供。