scrapy spider提取正确的url,但忽略url参数

2024-10-02 18:14:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个脏兮兮的爬行蜘蛛,用SgmlLinkExtractor从图像映射中提取链接,规则如下

Rule(SgmlLinkExtractor(allow_domains=('pressen-haas.de'),
                       restrict_xpaths=('//map[@name="bildmaschinen"]')))

如果您想看一看,起始url是http://www.pressen-haas.de/neu//machines.php?lang=en。生成的url的形式为http://www.pressen-haas.de/neu//masch_cat.php?lang=en&phid=0,其中phid参数从0到8。到目前为止,爬行器获取9个不同的url并对其进行爬网,问题是当爬行器获取这些页面时,如果您在浏览器中输入url,则所有信息都不可用。我写了一个回调来测试

^{pr2}$

如果您在浏览器中输入url并删除第二个url参数,即http://www.pressen-haas.de/neu/masch_cat.php?lang=en,那么您将看到什么内容和结果

我已经检查了蜘蛛是爬行正确的网址,我可以复制爬行的网址从蜘蛛输出日志到一个浏览器,他们工作良好,为什么我可以看到这些网址在浏览器,但蜘蛛看到不同的东西?在

提前谢谢。在


Tags: httpurllangwww浏览器deenphp