我有一些html文件,每个文件都包含
<td id="MenuTD" style="vertical-align: top;">
...
</td>
其中...
可以包含任何内容,</td>
匹配<td id="MenuTD" style="vertical-align: top;">
。我想从html文件中删除这个部分。你知道吗
类似地,我可能还想删除文件中的一些其他标记。你知道吗
我该如何用Python编程呢?你知道吗
我正在研究python2.7中的HTMLParser
模块,但还没有弄清楚这是否有帮助。你知道吗
Tags:
您可以使用BeautifulSoup实现这一点。您有两个选项,这取决于要对要删除的元素执行的操作。你知道吗
设置:
代码:
此时,要删除的元素已保存到
menu_td
变量中。你想怎么做就怎么做。soup
变量中的HTML不再包含元素,但是:输出:
MenuTD
元素中的所有内容都已删除。您可以看到它仍然在menu_td
变量中:输出:
代码:
它不返回任何内容(与
.extract()
不同)。但是,它确实会从文档中删除元素:输出:
相关问题 更多 >
编程相关推荐