调用文本但完全排除表

s =""" <content><p>Hasselt ( ) is a <link target="Belgium">Belgian</link> <link target="city">city</link> and <link target="Municipalities in Belgium">municipality</link>. <table><cell>Passenger growth <cell>Year</cell><cell>Passengers</cell><cell>Percentage </cell></cell> <cell>1996</cell><cell>360 000</cell><cell>100%</cell> <cell>1997</cell><cell>1 498 088</cell><cell>428%</cell> </table>""" clean = Soup(s) print clean.text

1条回答

网友

1楼 · 发布于 2024-06-28 19:27:17

您可以找到content元素并从中删除所有table元素，然后获取文本：

from bs4 import BeautifulSoup

s =""" <content><p>Hasselt ( ) is a <link target="Belgium">Belgian</link> <link target="city">city</link> and <link target="Municipalities in Belgium">municipality</link>.
<table><cell>Passenger growth
<cell>Year</cell><cell>Passengers</cell><cell>Percentage </cell></cell>
<cell>1996</cell><cell>360 000</cell><cell>100%</cell>
<cell>1997</cell><cell>1 498 088</cell><cell>428%</cell>
</table>"""
soup = BeautifulSoup(s, "xml")

content = soup.content
for table in content("table"):
    table.extract()

print(content.get_text().strip())

印刷品：

Hasselt ( ) is a Belgian city and municipality.

相关问题更多 >

编程相关推荐

热门问题

热门文章