Webscraping链接与手动浏览不同

2024-09-28 19:02:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经刮了840网址网站。。。 当我重新创建url以获取更多信息时,我的python scraper不会像手动单击链接那样提供相同的数据。你知道吗

例如,当我访问这个网站时,https://salesweb.civilview.com/Sales/SalesSearch

如果我单击列表中的第一个“详细信息”,它将进入一个包含更多信息的页面。你知道吗

给出的信息是一个相对链接,显示“/Sales/SaleDetails”?属性ID=254119896'

我已经刮掉了'细节'相对链接,然后重建链接,以匹配绝对地址。 此地址变为

https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=254119896

然而,当我这样做,并试图刮,我得到了一个完全不同的数据集,它带我到一个通用的登录页。你知道吗

https://salesweb.civilview.com/

我起初以为,我需要使用无头浏览器来解决这个问题,但现在我不确定。你知道吗

这是我的密码:

import time
from selenium import webdriver

baseurl='https://salesweb.civilview.com'
link='/Sales/SaleDetails?PropertyId=254119946'
url1=baseurl+link

driver = webdriver.PhantomJS() 
driver.get(url1)  
html = driver.page_source
time.sleep(10) 
driver.quit()

Tags: 数据httpsimportcom信息time网站链接
1条回答
网友
1楼 · 发布于 2024-09-28 19:02:47

我找到了一个解决办法,如果你第一次与网站互动,你可以访问其他网址。不幸的是,我不知道它为什么起作用:

driver = webdriver.PhantomJS()
driver.get("https://salesweb.civilview.com/")
driver.find_element_by_link_text('Atlantic County, NJ').click()
driver.get("https://salesweb.civilview.com/Sales/SaleDetails?PropertyId=254119946")
html = driver.page_source
print(html)

相关问题 更多 >