当数据表不在页面sou中显示时如何刮取

2024-06-28 11:15:23 发布

您现在位置:Python中文网/ 问答频道 /正文

我想从https://www.ijsselsteinloop.nl/uitslagen-2019上的数据表中抓取所有的运行时间(不仅仅是前10个结果)。但是,网页上显示的数据并没有显示在de page source中。在每个数据表下,都有一个超链接(“hier”)。这些链接指向完整的数据表页。但是这些链接也不在页面源中。你知道吗

任何关于如何刮取这些数据的建议或代码片段(使用Python和BeautifulSoup或Scrapy)。你知道吗


Tags: 数据https网页source链接wwwnl时间
2条回答

使用页面用于该内容的相同端点。您可以在浏览器的“网络”选项卡中找到它。你知道吗

import requests
from bs4 import BeautifulSoup as bs
import pandas as pd

r = requests.get('https://www.ijsselsteinloop.nl/uitslag/2019/index.html')
soup = bs(r.content, 'lxml')
links = ['https://www.ijsselsteinloop.nl/uitslag/2019/' + item['href'] for item in soup.select('[href^=uitslag]')]

for link in links:
    table = pd.read_html(link)[0]
    print(table)

你可以用美丽之声。首先:

uClient = uReq(my_url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html,"html.parser")

然后使用函数找到。全部(获取每个tr)。然后使用for循环,并键入 再次查找('td')以获取每一行

相关问题 更多 >