擅长:python、mysql、java
<p>文档证明,每个库中的naivebayes实现非常简单
所以为什么不运行你的数据并比较结果呢?在</p>
<p>Orange和NLTK都是成熟、稳定的库(每个库都有10多年的开发经验)
起源于大型大学;它们有一些共同的特点,主要是机器学习
算法。除此之外,它们在范围、目的和实现上都有很大的不同。在</p>
<p>橙色是一个领域不可知论者,不针对某一特定的学科
或者说是商业领域,它却宣称自己是全栈数据挖掘
以及ML平台。它的重点是<strong><em>工具</em></strong>本身,而不是这些工具在特定学科中的应用。在</p>
<p>它的特性包括IO、数据分析算法和
数据可视化画布。在</p>
<p>另一方面,NLTK最初是一个计算领域的学术项目
一所大型大学的语言学系。你提到的任务
(文档内容分类)和您选择的算法(naivebayesian)
NLTK的核心功能非常正确。NLTK确实如此
有ML/数据挖掘算法,但这只是因为它们有一个特定的
计算语言学中的效用。在</p>
<p>NLTK当然包括一些ML算法,但这仅仅是因为它们在计算语言学中具有实用性,以及文档解析器、标记器、词性
分析仪等,所有这些都包括NLTK。在</p>
<p>也许橙色的naivebayes实现也一样好,我还是选择NLTK的
实现,因为它显然针对您提到的特定任务进行了优化。在</p>
<p>有许多关于NLTK的教程,特别是关于其naivebayes的教程
内容分类。例如,<a href="http://www.litfuel.net/plush/?postid=200" rel="noreferrer">Jim Plus</a>和<a href="http://streamhacker.com/2010/05/10/text-classification-sentiment-analysis-naive-bayes-classifier/" rel="noreferrer">streamhacker.com</a>的一篇博客文章非常出色
使用NLTK的naivebayes的教程;第二个教程包括一行一行的
讨论访问此模块所需的代码。这两本书的作者
posts报告使用NLTK的结果很好(前者92%,后者73%)。在</p>