我是计算机编程新手,请原谅我的无知。你知道吗
我有大约10000个txt文件,我想根据关键字从这些文件中提取字符串。然后,我想创建一个带有原始文件名和字符串的表。我预计这个表将有10000个条目。我使用的文件是纯文本文件,具体来说是书籍,没有任何标记。你知道吗
例如,我想在以下文本中捕获“somali”第一个实例前后的100个字符的字符串:
“在古代,非洲之角是一个重要的商业中心。它是传说中的庞特古国最可能的地点之一。在中世纪,几个强大的索马里帝国主导了地区贸易,包括阿朱兰帝国、阿达尔苏丹国、瓦桑加利苏丹国和盖雷迪苏丹国。19世纪末,通过与这些王国的一系列条约,英国人和意大利人控制了部分海岸,建立了英属索马里兰和意大利-索马里兰殖民地。”
如果我要解析文本并在索马里的第一个实例前后得到一个包含100个charters的字符串,我的字符串将如下所示:
传说中的庞特古国最可能的位置。在中世纪,几个强大的索马里帝国主导了地区贸易,包括阿朱兰帝国、阿达尔苏丹国、佤邦
在10000个文件中,我只希望找到一手满是关键词索马里的文件,但我会搜索成千上万个关键词,结果有10000个。你知道吗
我应该从哪里开始寻找脚本或程序来完成这项任务?你知道吗
我会打印你提到的清单。你知道吗
相关问题 更多 >
编程相关推荐