scrapy spider提取正确的url，但忽略url参数

2024-10-02 18:14:17 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个脏兮兮的爬行蜘蛛，用SgmlLinkExtractor从图像映射中提取链接，规则如下

Rule(SgmlLinkExtractor(allow_domains=('pressen-haas.de'),
                       restrict_xpaths=('//map[@name="bildmaschinen"]')))

如果您想看一看，起始url是http://www.pressen-haas.de/neu//machines.php?lang=en。生成的url的形式为http://www.pressen-haas.de/neu//masch_cat.php?lang=en&phid=0，其中phid参数从0到8。到目前为止，爬行器获取9个不同的url并对其进行爬网，问题是当爬行器获取这些页面时，如果您在浏览器中输入url，则所有信息都不可用。我写了一个回调来测试

^{pr2}$

如果您在浏览器中输入url并删除第二个url参数，即http://www.pressen-haas.de/neu/masch_cat.php?lang=en，那么您将看到什么内容和结果

我已经检查了蜘蛛是爬行正确的网址，我可以复制爬行的网址从蜘蛛输出日志到一个浏览器，他们工作良好，为什么我可以看到这些网址在浏览器，但蜘蛛看到不同的东西？在

提前谢谢。在

Tags： http url lang www 浏览器 de en php

1条回答

网友

1楼 · 发布于 2024-10-02 18:14:17

蜘蛛试图抓取的页面的html格式非常糟糕，我相当肯定这是问题所在，而不是蜘蛛本身的问题。在