我有一个100GB的文件,包含4到200个字符长的随机文本字符串,每行一个。你知道吗
如果可能的话,我希望能够在文件中的任何字符串中找到一个字符串,例如“footestbar”中出现的任何“test”。你知道吗
否则,我会很高兴能够找到以子字符串开头的行/记录,例如“foo”找到“footestbar”,而不是“testbarfoo”。你知道吗
我想对文件进行一次排序,然后记录带“a”的行开始的位置,带“b”的行开始的位置,等等。这样可以让我快速跳转到正确的部分,减少所需的时间。我可以通过记录所有三个字符组合开始的位置来进一步提高速度,但是有些东西告诉我有更好的方法。你知道吗
我认为一个好的开始是生成一个DAFSA。您可能需要将其与图形文件格式相结合。你知道吗
相关问题 更多 >
编程相关推荐