Python3中的类似Mmap的行为

class FancyWrapper(bytes): def __init__(self, base_str): pass #super() isn't called and yet the code below finds abc, aaa and bbb print(re.findall(b'[abc]{3}', FancyWrapper(b'abc aaa bbb def')))

1条回答

网友

1楼 · 发布于 2024-09-30 16:22:45

嗯，我发现这不可能，目前不行。在

Python的re模块对字符串进行内部操作，因为它扫描的是一个普通的C缓冲区，它需要接收到的对象来满足这些属性：
- 它们的表示必须驻留在系统内存中
- 它们的表示必须是线性的，例如不能包含任何类型的间隙
- 它们的表示必须包含我们作为一个整体搜索的内容。在
因此，即使我们设法使re与bytes或{}不同的东西工作，我们也必须使用类似mmap的行为，即将我们的内容提供者模拟为系统内存中的线性区域。
但是mmap机制只对文件有效，事实上，即使这样也很有限。例如，如果一个人试图写入一个大文件，就不能mmap它，就像this answer。
即使包含许多超级重复添加的regex模块，也不能容纳string和{}之外的内容源。在

完整性方面：这是否意味着我们已经完蛋了，不能用re来浏览大量动态内容？不一定。有一种方法可以做到，如果我们允许限制最大匹配大小。该解决方案的灵感来自cfi的注释，并将其扩展到二进制文件。在

设n=最大匹配大小。在
开始搜索位置x
有内容的时候：
1. 导航到位置x
2. 读取2*n字节以扫描缓冲区
3. 在扫描缓冲区内查找第一个匹配项
4. 如果找到匹配项：
  1. 设x=x+匹配位置+匹配尺寸
  2. 通知匹配位置和匹配大小
5. 如果未找到匹配项：
  1. 设x=x+n

通过使用两倍于最大匹配大小的缓冲区来实现这一点？假设用户搜索A{3}，并且最大匹配大小设置为3。如果我们只读取max match size字节到扫描缓冲区，并且当前x的数据包含AABBBA：

此迭代将查看AAB。不匹配。在
下一次迭代将指针移动到x+3。在
现在扫描缓冲区如下所示：BBA。还是没有对手。在

这显然很糟糕，简单的解决方案是读取两倍于我们跳过的字节数，以确保扫描缓冲区尾部附近的异常得到解决。在

注意，在扫描缓冲区内的第一个匹配上的短路被认为是为了防止其他异常，例如缓冲区扫描不足。可能会对其进行调整，以最小化包含多个匹配项的扫描缓冲区的读取，但我希望避免使事情进一步复杂化。在

这可能不是最具性能的算法，但对于我的用例来说已经足够好了，所以我将它留在这里。在

相关问题更多 >

编程相关推荐

热门问题

热门文章