如何从大量文章中训练短语模型（维基百科）？

corpus = smart_open(corpusFile, "r") phrases = gensim.models.Phrases() with smart_open(phrasesFile, "wb") as phrases_file: chunks_size = 10000 texts, i = [], 0 for text in corpus: texts.append(text.split()) i += 1 if i % chunks_size == 0: phrases.add_vocab(texts) texts = [] phrases.save(phrases_file) corpus.close()

1条回答

网友

1楼 · 发布于 2024-05-19 08:58:05

我自己回答是因为我意识到我忘了处理短语类中一些与内存相关的参数。在

所以，首先我把max_vocab_size除以2，这样它应该会消耗更少的内存，而且我决定每隔10万篇文章保存一次Phrases对象，然后从保存的文件中重新加载它，因为这些技巧已经显示了它们对gensim库中的其他类有帮助。。。在

以下是新代码，可能稍慢，但它已成功完成任务：

corpus = smart_open(corpusFile, "r")
max_vocab_size=20000000
phrases = Phrases(max_vocab_size=max_vocab_size)
chunks_size = 10000
save_every = 100000
texts, i = [], 0
for text in corpus:
    texts.append(text.split())
    i += 1
    if i % chunks_size == 0:
        phrases.add_vocab(texts)
        texts = []
    if i % save_every == 0:
        phrases.save(phrasesFile)
        phrases = Phrases.load(phrasesFile)
corpus.close()
phrases.save(phrasesFile)

在我的例子中，在把所有这些放在一个Phraser对象中之后，我得到了412816个短语。在

相关问题更多 >

编程相关推荐

热门问题

热门文章