删除regex中的Html标记

string=<li class=" tal "><h3><a href="/aclk?sa=l&ai=CoS4y-Wz0TrnqC8y0rAfysK2DB46PiJECzoK8_yKPwd4FCAAQAigCUL7Kz4P9_____wFg5erjg5gOoAH0m_XuA8gBAakCoqvilYNWVD6qBB1P0Dm6CNzrf62IC36fDvUIh77EpeheIRdH_YEaPw&sig=AOD64_2z9xPK8vOxUCpIGTjBcc2Lg-GAeA&adurl=http://www.policybazaar.com/creditcards/creditcard-india.aspx%3Futm_source%3Dgoogle%26utm_medium%3Dppc%26utm_term%3DCreditcard_delhi_only%26utm_campaign%3Dcredit_card" id="pa2">Compare <b>Credit Cards</b> | PolicyBazaar.com</a></h3>Get Best <b>Credit Card</b> For Free, Now U Have a Choice, Choose wisely!<br /><cite>www.policybazaar.com/<b>credit</b>-<b>Cards</b></cite></li>

3条回答

网友

1楼 · 编辑于 2024-10-01 09:37:51

如果您只是想从字符串中删除所有的HTML，您可以查看以下内容：http://code.activestate.com/recipes/440481-strips-xmlhtml-tags-from-string/

网友

2楼 · 编辑于 2024-10-01 09:37:51

在这种情况下，您应该使用DOTALL功能：

p = re.compile(r'<.*?>',re.DOTALL)

应该行得通。在

但是。。。您不应该将regex用于HTML解析，请参见以下内容：https://stackoverflow.com/a/1732454/11621

好吧。在

网友

3楼 · 编辑于 2024-10-01 09:37:51

谷歌或搜索Stackoverflow的HTML和regex-这是个坏主意。最好使用BeautifulSoup或其他真正的HTML解析器并修改DOM。在

相关问题更多 >

编程相关推荐

热门问题

热门文章