在一个大的文本文件中基于一个大的短语列表替换短语的一种省时的方法

with open("/media/saurabh/New Volume/wikiextractor/output/Final_Txt/single_cs.txt") as infile: for index,line in enumerate(infile): for concept_phrase in concepts: line = line.replace(concept_phrase, concept_phrase.replace(' ', '_')) with open('/media/saurabh/New Volume/wikiextractor/output/Final_Txt/single_cs_final.txt', 'a') as file: file.write(line + '\n' ) print (index)

2条回答

网友

1楼 · 编辑于 2024-10-03 02:45:38

您不应该在每一行打开和关闭输出文件。更重要的是，您可以存储每个concept_phrase的替换，并避免对concept_phrases的翻译版本进行替换（k是概念短语的数量，n是行的数量）：

in_file = "/media/saurabh/New Volume/wikiextractor/output/Final_Txt/single_cs.txt"
out_file = "/media/saurabh/New Volume/wikiextractor/output/Final_Txt/single_cs_final.txt"
replacement = dict([(cp, cp.replace(' ', '_')) for cp in concepts])

with open(in_file) as infile, open(out_file, 'a') as file:
    for line in infile:
        for concept_phrase in concepts:
            line = line.replace(concept_phrase, replacement[concept_phrase])
        file.write(line)

str.replace通常速度很快，我怀疑用re.sub一次替换就能打败它，即使重复调用str.replace。你知道吗

网友

2楼 · 编辑于 2024-10-03 02:45:38

我建议使用cython模块编译文件并尝试运行它。它会加速你的代码。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章