什么文件格式可以让我在文件中快速搜索字符串?

2024-10-04 03:25:41 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个100GB的文件,包含4到200个字符长的随机文本字符串,每行一个。你知道吗

如果可能的话,我希望能够在文件中的任何字符串中找到一个字符串,例如“footestbar”中出现的任何“test”。你知道吗

否则,我会很高兴能够找到以子字符串开头的行/记录,例如“foo”找到“footestbar”,而不是“testbarfoo”。你知道吗

我想对文件进行一次排序,然后记录带“a”的行开始的位置,带“b”的行开始的位置,等等。这样可以让我快速跳转到正确的部分,减少所需的时间。我可以通过记录所有三个字符组合开始的位置来进一步提高速度,但是有些东西告诉我有更好的方法。你知道吗


Tags: 文件方法字符串test文本foo排序记录