Python wikipediadump_专题

多线程NLP与Spacy pip

我试图将Spacy NLP（自然语言处理）pipline应用到像wikipediadump这样的大文本文件。以下是基于Spacy的documentation示例的代码： from spacy.en i ...

2024-09-27 已阅读: n次

好的，这是一个关于向Gensim python库提供训练数据时需要什么数据结构的具体问题。尤其是，必须对所提供的任何数据中的文档有一个隐含的理解（否则，它将无法找到tf-idf）。在对于一个特定的例 ...

2024-09-27 已阅读: n次

我正在努力训练wikipediadump的doc2vec模型，没有经验的服务器设置为本地机器是不可能的，因为它需要内存来做培训。除了Python2的过时副本之外，我找不到预先训练过的模型。你知道吗 ...

2024-09-27 已阅读: n次

我想使用gensim使用python -m gensim.scripts.make_wiki脚本将wikipediadump转换为纯文本。在我用它作为： python -m gensim.scrip ...

2024-09-27 已阅读: n次

当我试图解压wikipediadump以使用它的.xml文件时，我得到了这个错误。我该怎么解决呢？在 filepath='/Data/nlp/ESA/Wiki-ESA-master' file_nam ...

2024-09-27 已阅读: n次

所以这是我第一次使用Word2Vec和Im在训练Word2Vec模型之前使用wikipediadump和WikiCorpus对文件进行预处理。我想使用以下预处理技术：将所有字母转换为小写（我认为W ...

2024-09-27 已阅读: n次

有很多方法可以读取XML，包括一次读取（DOM）和一次读取一位（SAX）。我曾使用SAX或lxml迭代读取大型XML文件（例如wikipediadump，它是6.5GB压缩的）。在但是，在对该XML ...

2024-09-27 已阅读: n次