我需要处理一个由超过300000个单词组成的Python语料库。我可以考虑使用分布式环境吗?

2024-10-01 15:49:28 发布

您现在位置:Python中文网/ 问答频道 /正文

pattern = r'[A-Z][A-Z]+'
corpus_copy = corpus.split()
corrected_corpus = ''

for term in corrected_corpus:
        if (len(re.findall(pattern, term)) == 0 and wordnet.synsets(term) != ''):
                corrected_corpus += spell(term)+" "

这需要永远的执行,并最终打破循环。我知道这是一种基本的穿越方式。有哪些推荐的快速高效的分布式系统我可以尝试?你知道吗

提前谢谢。你知道吗


Tags: andinreforlenifcorpuswordnet
2条回答

生成器函数可以解决问题。到有关文本文件中生成器应用的更多信息,请参见本链接的第5.3.1节http://anandology.com/python-practice-book/iterators.html

如果你想为更大的问题找到一个更持久、更通用的解决方案,我推荐一些类似于Celery的方法。你知道吗

还有其他选择,比如RQ(比芹菜简单)。你知道吗

相关问题 更多 >

    热门问题