编程书籍推荐:NLTK基础教程 用NLTK和Python库构建机器学习应用,由人民邮电出版社2017-05-01月出版,本书发行作者信息: Nitin,Hardeniya,哈登尼亚 著,凌杰 译此次为第1次发行, 国际标准书号为:9787115452573,品牌为异步图书, 这本书采用平装开本为16开,附件信息:未知,纸张采为胶版纸,全书共有153页字数万 字,值得推荐的Python Book。
此书内容摘要
NLTK 库是当前自然语言处理(NLP)领域zui为流行、使用zui为广泛的库之一, 同时Python语言经过一段时间的发展也已逐渐成为主流的编程语言之一。本书主要介绍如何通过NLTK库与一些Python库的结合从而实现复杂的NLP任务和机器学习应用。全书共分为10章。第1章对NLP进行了简单介绍。第2章、第3章和第4章主要介绍一些通用的预处理技术、专属于NLP领域的预处理技术以及命名实体识别技术等。第5章之后的内容侧重于介绍如何构建一些NLP应用,涉及文本分类、数据科学和数据处理、社交媒体挖掘和大规模文本挖掘等方面。
本书适合 NLP 和机器学习领域的爱好者、对文本处理感兴趣的读者、想要快速学习NLTK的zishenPython程序员以及机器学习领域的研究人员阅读。
关于此书作者
Nitin Hardeniya 数据科学家,拥有4年以上从业经验,期间分别任职于Fidelity、Groupon和[24]7等公司,其业务横跨各个不同的领域。此外,他还拥有IIIT-H的计算语言学硕士学位,并且是5项客户体验专利的作者。编辑们的推荐
自然语言处理(NLP)属于人工智能与计算机语言学的交叉领域,处理的是计算机与人类语言之间的交互问题。随着人机交互需求的日益增长,计算机具备处理当前主要自然语言的能力已经成为了一个必然趋势。NLTK正是这一领域中一个强大而稳健的工具包。在这本书中,我们首先会介绍一些与NLP相关的知识。然后,我们会探讨一些与数据科学相关的任务,通过这些任务来学习如何从零开始构建自定义的标识器和解析器。在此过程中,我们将会深度探索NLP领域的基本概念,为这一领域各种开源的Python工具和库提供具有实践意义的见解。接下来,我们将会介绍如何分析社交媒体网站,发现热门话题,进行舆情分析。zui后,我们还会介绍一些用于处理大规模文本的工具。
在阅读完本书之后,您将会对NLP与数据科学领域中的概念有一个充分的了解,并能将这些知识应用到日常工作中。
如果您是NLP或机器学习相关领域的爱好者,并有一些文本处理的经验,那么本书就是为你量身定做的。此外,这本书也是专业Python程序员快速学习NLTK库的理想选择。
通过本书,你将学会:
■ 了解自然语言的复杂性以及机器对它们的处理方式。
■ 如何利用标识化处理手段清理文本歧义,并利用分块操作更好地处理数据。
■ 探索不同标签类型的作用,并学习如何将句子标签化。
■ 如何根据自己的需要来创建自定义的解析器和标识器。
■ 如何构建出具有拼写检查、搜索、机器翻译以及问答系统等功能的实用程序。
■ 如何通过信息爬取与捕获的手段对相关数据内容进行检索。
■ 如何通过特性的提取与选取,构建出针对不同文本的分类系统。
■ 如何使用各种第三方Python库,如pandas、scikit-learn、matplotlib、gensim。
■ 如何对社交媒体网站进行分析,包括发掘热门话题、舆情分析等。
NLTK基础教程 用NLTK和Python库构建机器学习应用图书的目录
第1章自然语言处理简介 11.1为什么要学习NLP 2
1.2先从Python开始吧 5
1.2.1列表 5
1.2.2自助功能 6
1.2.3正则表达式 8
1.2.4字典 9
1.2.5编写函数 10
1.3向NLTK迈进 11
1.4练习 16
1.5小结 17
第2章文本的歧义及其清理 18
2.1何谓文本歧义 18
2.2文本清理 20
2.3语句分离器 21
2.4标识化处理 22
2.5词干提取 23
2.6词形还原 24
2.7停用词移除 25
2.8罕见词移除 26
2.9拼写纠错 26
2.10练习 27
2.11小结 28
第3章词性标注 29
3.1何谓词性标注 29
3.1.1Stanford标注器 32
3.1.2深入了解标注器 33
3.1.3顺序性标注器 35
3.1.4Brill标注器 37
3.1.5基于机器学习的标注器 37
3.2命名实体识别(NER) 38
3.3练习 40
3.4小结 41
第4章文本结构解析 43
4.1浅解析与深解析 43
4.2两种解析方法 44
4.3为什么需要进行解析 44
4.4不同的解析器类型 46
4.4.1递归下降解析器 46
4.4.2移位-归约解析器 46
4.4.3图表解析器 46
4.4.4正则表达式解析器 47
4.5依存性文本解析 48
4.6语块分解 50
4.7信息提取 53
4.7.1命名实体识别(NER) 53
4.7.2关系提取 54
4.8小结 55
第5章NLP应用 56
5.1构建第一个NLP应用 57
5.2其他NLP应用 60
5.2.1机器翻译 60
5.2.2统计型机器翻译 61
5.2.3信息检索 62
5.2.4语音识别 64
5.2.5文本分类 65
5.2.6信息提取 66
5.2.7问答系统 67
5.2.8对话系统 67
5.2.9词义消歧 67
5.2.10主题建模 68
5.2.11语言检测 68
5.2.12光符识别 68
5.3小结 68
第6章文本分类 70
6.1机器学习 71
6.2文本分类 72
6.3取样操作 74
6.3.1朴素贝叶斯法 76
6.3.2决策树 79
6.3.3随机梯度下降法 80
6.3.4逻辑回归 81
6.3.5支持向量机 81
6.4随机森林算法 83
6.5文本聚类 83
6.6文本中的主题建模 84
6.7参考资料 87
6.8小结 87
第7章Web爬虫 88
7.1Web爬虫 88
7.2编写第一个爬虫程序 89
7.3Scrapy库中的数据流 92
7.3.1Scrapy库的shell 93
7.3.2目标项 98
7.4生成网站地图的蜘蛛程序 99
7.5目标项管道 100
7.6参考资料 102
7.7小结 102
第8章NLTK与其他Python库的搭配
运用 104
8.1NumPy 104
8.1.1多维数组 105
8.1.2基本运算 106
8.1.3从数组中提取数据 107
8.1.4复杂矩阵运算 108
8.2SciPy 112
8.2.1线性代数 113
8.2.2特征值与特征向量 113
8.2.3稀疏矩阵 114
8.2.4优化措施 115
8.3pandas 117
8.3.1读取数据 117
8.3.2数列 119
8.3.3列转换 121
8.3.4噪声数据 121
8.4matplotlib 123
8.4.1子图绘制 123
8.4.2添加坐标轴 124
8.4.3散点图绘制 125
8.4.4条形图绘制 126
8.4.53D绘图 126
8.5参考资料 126
8.6小结 127
第9章Python中的社交媒体挖掘 128
9.1数据收集 128
9.2数据提取 132
9.3地理可视化 134
9.3.1影响力检测 135
9.3.2Facebook 135
9.3.3有影响力的朋友 139
9.4小结 141
第10章大规模文本挖掘 142
10.1在Hadoop上使用Python的
不同方式 142
10.1.1Python的流操作 143
10.1.2Hive/Pig下的UDF 143
10.1.3流封装器 143
10.2Hadoop上的NLTK 144
10.2.1用户定义函数
(UDF) 144
10.2.2Python的流操作 146
10.3Hadoop上的Scikit-learn 147
10.4PySpark 150
10.5小结 153
部分内容试读
暂无.关于此书评价
暂无.书摘内容
暂无.NLTK基础教程 用NLTK和Python库构建机器学习应用最新最全的试读、书评、目录、简介信息由Python中文网整理提供。