Python(Selenium/beauthulsoup)搜索结果动态URL

2024-09-30 16:33:42 发布

您现在位置:Python中文网/ 问答频道 /正文

免责声明:这是我第一次涉足网络抓取

我有一个与搜索结果相对应的url列表,例如

http://www.vinelink.com/vinelink/servlet/SubjectSearch?siteID=34003&agency=33&offenderID=2662

我尝试使用Selenium访问结果的HTML,如下所示:

for url in detail_urls:
    driver.get(url)
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    print(soup.prettify())

然而,当我梳理一下得到的上色汤时,我发现我需要的成分不见了。回顾页面加载过程,我发现URL重定向了几次,如下所示:

  1. http://www.vinelink.com/vinelink/servlet/SubjectSearch?siteID=34003&agency=33&offenderID=2662

  2. https://www.vinelink.com/#/searchResults/id/offender/34003/33/2662

  3. https://www.vinelink.com/#/searchResults/1

有人对如何访问最终搜索结果数据有什么建议吗?在

更新:在进一步研究之后,这似乎与正在执行的脚本有关,以检索要显示的相关数据。。。页面源代码中引用了许多与搜索结果相关的脚本;是否有方法确定哪些脚本相关?在

我能够根据这张图片检查我需要的信息:

enter image description here


Tags: 脚本comhttpurlhtmlwwwdriver页面
1条回答
网友
1楼 · 发布于 2024-09-30 16:33:42

一旦您有了带有HTML的soup变量,请按照下面的代码进行操作。。在

import json
data = soup.find('search-result')['data']
print(data)

输出: 现在把每个值都当作一个dict

^{pr2}$

下一步:

^{3}$

相关问题 更多 >