删除html文件中匹配的标记？

1条回答

网友

1楼 · 发布于 2024-10-08 19:18:50

您可以使用BeautifulSoup实现这一点。您有两个选项，这取决于要对要删除的元素执行的操作。你知道吗

设置：

from bs4 import BeautifulSoup

html_doc = """
<html>
    <header>
        <title>A test</title>
    </header>
    <body>
        <table>
            <tr>
                <td id="MenuTD" style="vertical-align: top;"> 
                    Stuff here <a>with a link</a>
                    <p>Or paragraph tags</p>
                    <div>Or a DIV</div>
                </td>
                <td>Another TD element, without the MenuTD id</td>
            </tr>
        </table>
    </body>
</html>
"""

soup = BeautifulSoup(html_doc)

选项1是使用^{}方法。使用此选项，您将保留提取元素的副本，以便以后在应用程序中使用：

代码：

menu_td = soup.find(id="MenuTD").extract()

此时，要删除的元素已保存到menu_td变量中。你想怎么做就怎么做。soup变量中的HTML不再包含元素，但是：

print(soup.prettify())

输出：

<html>
 <header>
  <title>
   A test
  </title>
 </header>
 <body>
  <table>
   <tr>
    <td>
     Another TD element, without the MenuTD id
    </td>
   </tr>
  </table>
 </body>
</html>

MenuTD元素中的所有内容都已删除。您可以看到它仍然在menu_td变量中：

print(menu_td.prettify())

输出：

<td id="MenuTD" style="vertical-align: top;">
 Stuff here
 <a>
  with a link
 </a>
 <p>
  Or paragraph tags
 </p>
 <div>
  Or a DIV
 </div>
</td>

选项2：利用^{}。如果不需要已删除元素的副本，可以利用此函数将其从文档中删除并销毁内容。你知道吗

代码：

soup.find(id="MenuTD").decompose()

它不返回任何内容（与.extract()不同）。但是，它确实会从文档中删除元素：

print(soup.prettify())

输出：

<html>
 <header>
  <title>
   A test
  </title>
 </header>
 <body>
  <table>
   <tr>
    <td>
     Another TD element, without the MenuTD id
    </td>
   </tr>
  </table>
 </body>
</html>

相关问题更多 >

编程相关推荐

热门问题

热门文章

删除html文件中匹配的标记？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >