使用gibbs采样执行潜在dirichlet分配的python库。

topic-modelling-tools-fast的Python项目详细描述


#主题建模工具 基于gibbs抽样的潜dirichlet分配主题建模。 这个版本的软件包使用GNU科学库来存储随机数 生成,提供比numpy更快的性能。

斯蒂芬·汉森,stephen.hansen@economics.ox.ac.uk 牛津大学经济学副教授

python/cython代码,用于清理文本并通过折叠gibbs采样估计lda,如griffiths和steyvers(2004)所述。

使用此库的教程脚本和笔记本,以及一些 示例数据,可在以下位置找到: https://github.com/sekhansen/text-mining-tutorial

##安装说明

这个版本的包要求gnu科学库(gsl)是 安装。您可以从ftp://ftp.gnu.org/gnu/gsl/或 对于使用自制程序的Mac OSX,可以执行brew安装gsl。如果你有康达, 请安装GSL。

(对于不需要gsl(但速度稍慢)的版本,请签出 此存储库的“master”分支,或pip install topic modeling tools

如果您已经安装了gsl、python和pip,pip install topic-modeling-tools\u gsl 应该有用。该包依赖于其他一些python库,如 Numpy和NLTK,但这应该由PIP负责。

唯一的另一个要求是,需要构建一个C++编译器来构建这个程序集。 代码。对于MacOSX,您可以下载Xcode命令行工具, 而对于Windows,您可以下载VisualStudioC++编译器。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
字典java cassandra对象映射注释   java定制Solr TokenFilter lemmatizer   字符串从Java文件中读取windows文件名   java如何在Windows上设置StanfordCorenlp服务器以返回文本   java axis2“意外的子元素值”   java使用POI HSSF获取错误   多线程Java等待计时器线程完成   java ForkJoinPool BuffereImage处理风格   从java代码运行Python脚本   java将字节[]转换为短[],使每个短元素包含13位数据   java如何为swing jframe应用程序将代码划分为类   java使用okhttp更改baseurl   java AlertDialog。建设者setView导致堆栈溢出错误   java如何在特定的radius 安卓 studio中接收地址列表?