使用Python从具有序列span id的HTML页面中刮取数据

2024-09-26 17:45:11 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在处理某些HTML页面,需要从中提取数据。问题是span id是有编号的。 例如-

ContentPlaceHolder_0, ContentPlaceHolder_1, ContentPlaceHolder_2 ..... ContentPlaceHolder_n

我需要在每一页从所有这些span标签中获取数据。使用BeautifulSoup获得这些数据的最佳方法是什么?你知道吗


Tags: 数据方法idhtml页面标签编号span
1条回答
网友
1楼 · 发布于 2024-09-26 17:45:11

你可以试试BeautifulSoup内置的CSS选择器。这将选择ID以ContentPlaceHolder开头的所有跨度:

soup.select('span[id^=ContentPlaceHolder]')

示例:

from bs4 import BeautifulSoup

html = """<span id='ContentPlaceHolder_0'>0</span>
<span id='ContentPlaceHolder_1'>1</span>
<span id='ContentPlaceHolder_2'>2</span>
<span id='ContentPlaceHolder_3'>3</span>

<span id='xxx'>xxx</span>"""

soup = BeautifulSoup(html, 'lxml')

for s in soup.select('span[id^=ContentPlaceHolder]'):
    print(s.text)

印刷品:

0
1
2
3

相关问题 更多 >

    热门问题