RegEx/Python:n在其他匹配之前出现匹配

<word id="15" pos="SS"> <token>infarto</token> <lemmas>infarto</lemmas> </word> <word id="16" pos="AS"> <token>miocardico</token> <lemmas>miocardico</lemmas> </word> <word id="17" pos="AS" annotated="head"> <token>acuto</token> <lemmas>acuto</lemmas> </word> <word id="18" pos="E"> <token>in</token> <lemmas>in</lemmas> </word> <word id="19" pos="SS"> <token>corso</token> <lemmas>corso</lemmas> </word>

2条回答

网友

1楼 · 编辑于 2024-09-29 21:44:06

如果您确保数据是格式良好的XML。我认为这是可能的，尝试以下步骤：

步骤1:<word[^>]*>([^<]*(?:(?!<\/?word)<[^<]*)*)<\/word>（refhttp://regexr.com?31org）
步骤2：从步骤1（组1）中获取字符串，并与<token[^>]*>([^<]*(?:(?!<\/?token)<[^<]*)*)<\/token>（refhttp://regexr.com?31ora）或{}（refhttp://regexr.com?31ord）匹配

您可以尝试根据您的要求修改这些模式：）

参考文献：掌握正则表达式第三

网友

2楼 · 编辑于 2024-09-29 21:44:06

我想应该是这样的：

(?s)(<word(?:(?!<word).)*)<word[^>]*?annotated="head".*?(<word[^>](?:(?<!</word>).)*)

因此，组1将包含id=16的节点“word”，组2将包含id=18的节点“word”。在

然后可以使用regex分别解析这些节点，如下所示：

^{pr2}$

你将得到两组“pos”和“token”。在

当然，可以使用单个regex，但这将非常难看。在

相关问题更多 >

编程相关推荐

热门问题

热门文章