使用正则表达式的Hashtable/dictionary/map查找

>>> regex_dict = { re.compile(r'foo.') : 12, re.compile(r'^FileN.*$') : 35 } >>> regex_dict['food'] 12 >>> regex_dict['foot in my mouth'] 12 >>> regex_dict['FileNotFoundException: file.x does not exist'] 35

3条回答

网友

1楼 · 编辑于 2024-10-02 04:30:57

您想要做的与xrdb所支持的非常相似。然而，他们只支持一个相当小的全球化概念。

在内部，通过将正则表达式存储为字符trie，可以实现比它们更大的正则语言家族。

单个字符只是trie节点。
。成为覆盖当前trie节点的所有子节点的通配符插入。
*将成为前一项开始处trie to节点中的反向链接。
[a-z]ranges在范围中的每个字符下重复插入相同的后续子节点。小心，虽然插入/更新可能有点贵，但搜索在字符串大小上可以是线性的。使用一些占位符可以控制常见的组合爆炸情况。
（foo）|（bar）节点变成多个插入

这不处理出现在字符串中任意点的正则表达式，但可以通过在任意一侧用.*包装正则表达式来建模。

Perl有两个类似于Text：：Trie的模块，您可以对其进行raid以获取想法。（见鬼，我想我甚至在很久以前就写过了）

网友

2楼 · 编辑于 2024-10-02 04:30:57

这与任何语言中的常规哈希表都不可能实现。您要么必须遍历整个键集，尝试将键与正则表达式匹配，要么使用不同的数据结构。

您应该选择一个适合您试图解决的问题的数据结构。如果必须与任意正则表达式匹配，我不知道有什么好的解决方案。如果要使用的正则表达式类的限制性更强，则可以使用数据结构，如trie或suffix tree。

网友

3楼 · 编辑于 2024-10-02 04:30:57

一般来说，你需要的是一个lexer生成器。它需要一堆正则表达式并将它们编译成识别器。”lex“如果你用的是C，它就可以工作了。我从来没有在Python中使用过lexer生成器，但似乎有几个可以选择。谷歌显示PLY、PyGgy和PyLexer。

如果正则表达式在某种程度上彼此相似，则可以使用一些快捷方式。我们需要更多地了解您试图解决的最终问题，以便提出任何建议。可以共享一些示例正则表达式和一些示例数据吗？

另外，这里要处理多少个正则表达式？你确定天真的方法不会奏效吗？正如Rob Pikeonce said，“当n很小，而n通常很小时，花哨的算法很慢。”除非你有成千上万的正则表达式，并且有成千上万的东西可以与它们匹配，而且这是一个用户正在等待你的交互式应用程序，否则你最好用简单的方法并在正则表达式之间循环。

相关问题更多 >

编程相关推荐

热门问题

热门文章