Python：关于解析人类可读tex的问题

网友

1楼 · 编辑于 2024-06-17 18:42:11

可能会有一个正则表达式来解析您想要的内容，但我不认为它是非常可读/可维护的。我的建议是使用类似ANTLR的解析器生成器。我认为你必须抛弃这样一个观念：你可以把化学描述变成一个单一的符号，太复杂了。ANTLR甚至有一个调试器，这样你就可以知道为什么它没有解析你认为应该解析的东西，我认为使用regexp是不可能的。在

谨致问候

塞巴斯蒂安

网友

2楼 · 编辑于 2024-06-17 18:42:11

这将解决您当前的示例。它可以调整为更大的数据集。在

import re
splitterForIndexing = re.compile(r"(?:[a-zA-Z0-9\-,]+[a-zA-Z0-9\-])|(?:[,.])")
source = "Hello. 1-methyl-4-phenylpyridinium is ultra-bad. However, 1-methyl-4-phenyl-1,2,3,6-tetrahydropyridine is worse."
print "\n".join( splitterForIndexing.findall(source))

结果是：

^{pr2}$

对不起，没看到非常糟糕。如果有必要把这些词分开。。在

import re
splitterForIndexing = re.compile(r"(?:[a-zA-Z]+)|(?:[a-zA-Z0-9][a-zA-Z0-9\-(),]+[a-zA-Z0-9\-()])|(?:[,.-])")
source = "Hello. 1-methyl-4-phenylpyridinium is ultra-bad. However, 1-methyl-4-phenyl-1,(2,3),6-tetrahydropyridine is worse."
print "\n".join( splitterForIndexing.findall(source))

给出：

"""
Hello
.
1-methyl-4-phenylpyridinium
is
ultra
-
bad
.
However
,
1-methyl-4-phenyl-1,(2,3),6-tetrahydropyridine
is
worse
.
"""

网友

3楼 · 编辑于 2024-06-17 18:42:11

我同意Sebastiaan Megens的观点，即regex解决方案可能是可能的，但可能不是很可读或可维护的，特别是如果您还不擅长正则表达式。如果您坚持使用Python，我建议使用pyparsing module（我认为这是一个不错的选择）。在

如果您的解析需要增长或改变，额外的可维护性将非常有用。（我相信很多人会说“当”而不是“如果”！例如，有人已经评论说，你可能需要一个更复杂的概念，什么是需要允许作为一个化学名称。也许你的需求在你选择工具之前就已经改变了！）在

相关问题更多 >

编程相关推荐

热门问题

热门文章