从本地文本文件中抓取相关的文本段落

import re caps = "([A-Z])" prefixes = "(Mr|St|Mrs|Ms|Dr)[.]" suffixes = "(Inc|Ltd|Jr|Sr|Co)" starters = "(Mr|Mrs|Ms|Dr|He\s|She\s|It\s|They\s|Their\s|Our\s|We\s|But\s|However\s|That\s|This\s|Wherever)" acronyms = "([A-Z][.][A-Z][.](?:[A-Z][.])?)" websites = "[.](com|net|org|io|gov)" def split_into_sentences(text): text = " " + text + " " text = text.replace("\n"," ") text = re.sub(prefixes,"\\1<prd>",text) text = re.sub(websites,"<prd>\\1",text) if "Ph.D" in text: text = text.replace("Ph.D.","Ph<prd>D<prd>") text = re.sub("\s" + caps + "[.] "," \\1<prd> ",text) text = re.sub(acronyms+" "+starters,"\\1<stop> \\2",text) text = re.sub(caps + "[.]" + caps + "[.]" + caps + "[.]","\\1<prd>\\2<prd>\\3<prd>",text) text = re.sub(caps + "[.]" + caps + "[.]","\\1<prd>\\2<prd>",text) text = re.sub(" "+suffixes+"[.] "+starters," \\1<stop> \\2",text) text = re.sub(" "+suffixes+"[.]"," \\1<prd>",text) text = re.sub(" " + caps + "[.]"," \\1<prd>",text) if "\"" in text: text = text.replace(".\"","\".") if "!" in text: text = text.replace("!\"","\"!") if "?" in text: text = text.replace("?\"","\"?") text = text.replace(".",".<stop>") text = text.replace("?","?<stop>") text = text.replace("!","!<stop>") text = text.replace("<prd>",".") sentences = text.split("<stop>") sentences = sentences[:-1] sentences = [s.strip() for s in sentences] return sentences relevantwords = ["refugees","conflicts","mobility", "rights", "presence", "freedom", "immigrants", "politics", "political"] for i in range(20): file = open("text"+str(i)+".txt", "r") data = file.readlines() for line in split_into_sentences(str(data)): if "relevantwords" in line: print str(i–1,i,i+1) print str(line).encode('UTF-8') print "\n"

1条回答

网友

1楼 · 发布于 2024-09-28 03:21:17

我会给你一个粗略的大纲的一些代码，如果你有困难，实现它，请随时张贴你的代码，我会很乐意帮助你在哪里你有问题！你知道吗

您需要：

将文件读入程序中的字符串
通过拆分字符'.'将字符串拆分为句子。注意，如果你有像“mr.”这样的缩写，它会认为这是一个句子的结尾。你知道吗
现在重复句子列表，在每次迭代中，执行以下操作：
- 检查单词是否在句子i中。如果是这样，就打印出i-1、i和i+1等句子
- 或者，如果不想打印出来，可以将它们添加到开始时创建的列表中

如果你有任何具体的问题，如何实施这一点，让我知道！你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章