我试图从一个名为WG-Gesucht的德国网站上提取公寓/房间的信息。我发现他们之间的联系符合逻辑:
http:// www.wg-gesucht.de/wohnungen-in-Berlin.8.2.0.**X**.html`
其中X=0, 1, 2, ...
当我把这些链接粘贴到我的浏览器中时,它们确实工作得很好。然而,当我试图爬上这些链接时,我的乐观情绪被打破了。最后,我在数据库中只得到与X = 0
相对应的条目。在
这是我的蜘蛛:
^{pr2}$
用cd3来代替cd3?在
欢迎提出任何建议,谢谢!在
Tags:
看起来像是一个cookies问题,你可以通过打开一个新的浏览器并直接尝试6th page来检查,例如,你将收到第一个页面的响应。在
Scrapy尝试将cookies用于后续请求,因此解决这一问题的一种方法不是将请求迭代到页面,而是一个接一个地进行如下操作:
相关问题 更多 >
编程相关推荐