我正在抓取一个网站,我正在检索一张表和一行日期。 一切正常,但当我运行脚本时,我从站点获取当前数据,有时从站点获取昨天的值
当我进入网站时,数据总是更新的
这是我代码的一部分,完整代码位于: http://pythonfiddle.com/lme
url = 'https://www.lme.com/en-gb/metals/non-ferrous/#tabIndex=0'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')
dateFromSite = soup.find('div', class_='delayed-date').text.strip()
查看从页面获得的HTTP头,站点正在使用Cloudflare缓存请求。所以有时候你会得到“旧”版本的页面
您可以尝试使用http
'Cache-Control: no-cache, must-revalidate'
头和/或使用添加到url的随机参数来规避此问题例如:
相关问题 更多 >
编程相关推荐