为什么当我解析一个网站时，我会从网站中获取旧数据，有时是网站中的当前数据

1条回答

网友

1楼 · 发布于 2024-10-05 14:23:42

查看从页面获得的HTTP头，站点正在使用Cloudflare缓存请求。所以有时候你会得到“旧”版本的页面

您可以尝试使用http 'Cache-Control: no-cache, must-revalidate'头和/或使用添加到url的随机参数来规避此问题

例如：

import time

url = 'https://www.lme.com/en-gb/metals/non-ferrous/?_random_number={rn}#tabIndex=0'
headers = {'Cache-Control': 'no-cache, must-revalidate'}

r = requests.get(url.format(rn=time.time()), headers=headers)
#print(r.headers) # should print 'CF-Cache-Status': 'MISS' in headers
soup = BeautifulSoup(r.text, 'html.parser')
dateFromSite = soup.find('div', class_='delayed-date').text.strip()

print(dateFromSite)

编程相关推荐

java如何将元素从一个ArrayList添加到另一个ArrayList？
oop java中的setter和getter有什么意义？
java如何在循环中添加用户输入？
java在没有maven jetty的情况下从命令行运行war
数组@override to。字符串仅打印出默认构造函数java hw
java获取mysql中两天之间的天数名称
java如何使用属性值从一个方法到另一个方法
java如何在MULE中进入流程中间，并将消息返回给客户端。。？
java有没有办法将EncryptedSharedReference与PreferenceScreen集成？
java在shell脚本中嵌入可执行二进制文件

相关问题更多 >

编程相关推荐

热门问题

热门文章

为什么当我解析一个网站时，我会从网站中获取旧数据，有时是网站中的当前数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >