如何根据关键字从纯文本文件中提取文本字符串?

2024-05-17 04:35:13 发布

您现在位置:Python中文网/ 问答频道 /正文

我是计算机编程新手,请原谅我的无知。你知道吗

我有大约10000个txt文件,我想根据关键字从这些文件中提取字符串。然后,我想创建一个带有原始文件名和字符串的表。我预计这个表将有10000个条目。我使用的文件是纯文本文件,具体来说是书籍,没有任何标记。你知道吗

例如,我想在以下文本中捕获“somali”第一个实例前后的100个字符的字符串:

“在古代,非洲之角是一个重要的商业中心。它是传说中的庞特古国最可能的地点之一。在中世纪,几个强大的索马里帝国主导了地区贸易,包括阿朱兰帝国、阿达尔苏丹国、瓦桑加利苏丹国和盖雷迪苏丹国。19世纪末,通过与这些王国的一系列条约,英国人和意大利人控制了部分海岸,建立了英属索马里兰和意大利-索马里兰殖民地。”

如果我要解析文本并在索马里的第一个实例前后得到一个包含100个charters的字符串,我的字符串将如下所示:

传说中的庞特古国最可能的位置。在中世纪,几个强大的索马里帝国主导了地区贸易,包括阿朱兰帝国、阿达尔苏丹国、佤邦

在10000个文件中,我只希望找到一手满是关键词索马里的文件,但我会搜索成千上万个关键词,结果有10000个。你知道吗

我应该从哪里开始寻找脚本或程序来完成这项任务?你知道吗


Tags: 文件实例字符串文本txt文件名编程计算机
1条回答
网友
1楼 · 发布于 2024-05-17 04:35:13
import os

path = "C://Users//Desktop//test"

for file_name in os.listdir(path):
     A=open(path+"//"+file_name).read()
     S = A.find("Somali")
     if(S==-1):
         print file_name+" Not found"

     else:
         print file_name+" "+A[A.find("Somali")-100:A.find("Somali")+100]

我会打印你提到的清单。你知道吗

相关问题 更多 >