我有几百个文档的语料库,我正在使用NLTK-PlaintextCorpusReader来处理这些文件。唯一的问题是我需要在for
循环中一次处理一个文件,这样我就可以计算这些文档的相似性。在
如果我像这样初始化读卡器
corpusReader = PlaintextCorpusReader(root, fileids = ".*")
它只消耗了所有文档,我无法找到一种方法来迭代文件而不是令牌。在
一种解决方案是为每个文件初始化corpusReader,迭代它的令牌,然后再次为另一个文件创建新的读卡器,但我认为这不是处理如此大数据的有效方法。在
感谢您的建议:)
向语料库请求其文件的列表,并一次请求一个文件的文本,如下所示:
相关问题 更多 >
编程相关推荐