避免重定向

2024-10-01 09:23:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图解析一个站点(用ASP编写),爬虫程序被重定向到主站点。但我想做的是解析给定的url,而不是重定向的url。有办法吗?。我尝试将“REDIRECT=False”添加到设置.py文件没有成功。在

以下是爬虫程序的一些输出:

2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=500&id=500>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1513&id=1513>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=476&id=476>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=472&id=472>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=457&id=457>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097>

Tags: tofromdebugcomidhttpdefaultget
2条回答

原始的URL没有什么可刮的。它返回302,这意味着没有正文,而Location标头指示重定向到哪里。你需要弄清楚如何在不被重定向的情况下访问URL,也许是通过身份验证。在

http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097重定向到http://www.cotodigital.com.ar/default.asp,因为HTTP响应是这么说的。发生这种情况是因为asp代码正在检查某些条件-错误的页面、cookies、用户代理或referer。检查上述情况。在

更新: 刚刚在我的浏览器中检查:浏览器也被重定向到主页面,在那里我单击“跳过广告”。之后就可以了。在

这意味着它设置了一些cookies,没有这些cookies它会重定向到主页面。在

另请参见Scrapy - how to manage cookies/sessions

相关问题 更多 >