使用scrapy,我尝试刮取一个searchencrypt url,如下所示:
https://www.searchencrypt.com/encsearch?q=box&d=search&ps=www
但它总是重定向到
https://www.searchencrypt.com/search?eq=Y8Ly0N6PX%2bPfTYAwJIXS%2bw%3d%3d&ett=5&ptc=://mail
它在浏览器中运行得非常好
我尝试了多种设置值的排列,如USER_AGENT
、DOWNLOAD_DELAY
、DEFAULT_REQUEST_HEADERS
、CONCURRENT_REQUESTS
、COOKIES_ENABLED
、DOWNLOADER_CLIENT_TLS_METHOD
、DNS_TIMEOUT
等
你知道我可以用scrapy中的任何工作设置或选项来阻止它重定向吗
如果清除该域的本地存储和Cookie,在浏览器中保持网络检查器打开,并访问URL,则在web浏览器显示内容之前,您将看到发生的所有请求和响应
找到包含所需实际数据的请求,签出其所有标头,找出它们是如何生成的(例如,从以前的请求接收到的数据,您必须在最后一个请求之前运行这些请求),并尝试为单个搜索URL模拟该工作流
相关问题 更多 >
编程相关推荐