如何有效地解析包含大多数unicode字符的单词？

1条回答

网友

1楼 · 发布于 2024-06-26 02:25:26

我想确保性能测试将创建表达式的时间和使用表达式进行解析的时间分开。（我还试用了另外两种Regex格式，如下所述）：

Create Word expression 6.56244158744812
Create Regex expression 0.0
Create Regex2 expression 3.991360902786255
Create Regex3 expression 0.4946744441986084

Parsing using Word expression
3.837733268737793
['foo', 'bar', '中文']
Parsing using Regex expression "[^ <>#;]+" 
0.07877945899963379
['foo', 'bar', '中文']
Parsing using Regex2 expression "[pp.pyparsing_unicode.printables]+"
3.8447225093841553
['foo', 'bar', '中文']
Parsing using Regex3 expression "[pp.pyparsing_unicode.printables converted to ranges]+"
0.07676076889038086
['foo', 'bar', '中文']

您可以看到两者都正确地解析了测试字符串，但是Regex大约快了40倍。我还使用从 "[" + pp.pyparsing_unicode.printables + "]+"这个结果和单词表达式差不多。你知道吗

最后，我使用通过将pp.pyparsing_unicode.printables转换为实际re范围而创建的正则表达式进行了测试，而不是仅使用一个大百万字符重范围（比如把alphanums的正则表达式从 “[abcdefghijklmnopqrstuvxyzabefghijklmnopqrstuvxyzo123456789]+” 至“[A-Za-z0-9]+”）。你知道吗

这最终与否定范围匹配相当，使我相信将字符列表转换为重范围对于一般的单词解析来说是一个潜在的加速（在解析器创建时有一个小的惩罚）。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何有效地解析包含大多数unicode字符的单词？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >