使用Python从具有序列span id的HTML页面中刮取数据 - 问答 - Python中文网

使用Python从具有序列span id的HTML页面中刮取数据

2024-09-26 17:45:11 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在处理某些HTML页面，需要从中提取数据。问题是span id是有编号的。例如-

ContentPlaceHolder_0, ContentPlaceHolder_1, ContentPlaceHolder_2 ..... ContentPlaceHolder_n

我需要在每一页从所有这些span标签中获取数据。使用BeautifulSoup获得这些数据的最佳方法是什么？你知道吗

Tags：数据方法 id html 页面标签编号 span

1条回答

网友

1楼 · 发布于 2024-09-26 17:45:11

你可以试试BeautifulSoup内置的CSS选择器。这将选择ID以ContentPlaceHolder开头的所有跨度：

soup.select('span[id^=ContentPlaceHolder]')

示例：

from bs4 import BeautifulSoup

html = """<span id='ContentPlaceHolder_0'>0</span>
<span id='ContentPlaceHolder_1'>1</span>
<span id='ContentPlaceHolder_2'>2</span>
<span id='ContentPlaceHolder_3'>3</span>

<span id='xxx'>xxx</span>"""

soup = BeautifulSoup(html, 'lxml')

for s in soup.select('span[id^=ContentPlaceHolder]'):
    print(s.text)

印刷品：

相关问题更多 >

编程相关推荐

热门问题

热门文章