免责声明:这是我第一次涉足网络抓取
我有一个与搜索结果相对应的url列表,例如
http://www.vinelink.com/vinelink/servlet/SubjectSearch?siteID=34003&agency=33&offenderID=2662
我尝试使用Selenium访问结果的HTML,如下所示:
for url in detail_urls:
driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())
然而,当我梳理一下得到的上色汤时,我发现我需要的成分不见了。回顾页面加载过程,我发现URL重定向了几次,如下所示:
http://www.vinelink.com/vinelink/servlet/SubjectSearch?siteID=34003&agency=33&offenderID=2662
https://www.vinelink.com/#/searchResults/id/offender/34003/33/2662
有人对如何访问最终搜索结果数据有什么建议吗?在
更新:在进一步研究之后,这似乎与正在执行的脚本有关,以检索要显示的相关数据。。。页面源代码中引用了许多与搜索结果相关的脚本;是否有方法确定哪些脚本相关?在
我能够根据这张图片检查我需要的信息:
一旦您有了带有HTML的
soup
变量,请按照下面的代码进行操作。。在输出: 现在把每个值都当作一个dict
^{pr2}$下一步:
^{3}$相关问题 更多 >
编程相关推荐