Python mulltiline+多任务正则表达式需要解决方案

<div class="box_update_userdetails_upate">50% discount 4 our members for the items that r put 4 sale.<br /> Send<br /> Join 4sale<br /> 9219592195</div> <div class="box_update_userdetails_upate">Big Offr 4 Our Grp MemBrs:<br /> Jst Add Ur 5 Frns and Gain a Recharge Of 20rs In ur Mob no.<br /> Details<br /> 9496360235<br /> addfrn</div>

2条回答

网友

1楼 · 编辑于 2024-09-26 18:10:35

我想你要找的是这个。你知道吗

"<div class=\"box_update_userdetails_upate\">(.|\n)*</div>"

中间的组将匹配两个div之间的所有字符。您的主要问题是.在Python正则表达式中通常与换行符不匹配。注意，如果您有一个嵌套的div，例如<div>...<div>...</div>...</div>，*操作符是贪婪的，因此它将捕获尽可能多的文本。换句话说，它将一直持续到它能找到的最后一个</div>。你知道吗

网友

2楼 · 编辑于 2024-09-26 18:10:35

这里引用一个著名的答案，使用正则表达式来解析html是不好的。你知道吗

def extract(starttag, endtag, text):
    ret = re.compile(r'{a}(.*){b}'.format(a=starttag,b=endtag), re.IGNORECASE).search(text).group(1)
    return ret

这应该可以处理多个div标记，但是它会在输出中包含div标记的下一个实例，但是一个简单的替换就可以解决这个问题

相关问题更多 >

编程相关推荐

热门问题

热门文章