一次又一次的抓取同一页不同的网址在德语si

2024-09-27 23:27:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图从一个名为WG-Gesucht的德国网站上提取公寓/房间的信息。我发现他们之间的联系符合逻辑:

http:// www.wg-gesucht.de/wohnungen-in-Berlin.8.2.0.**X**.html`

其中X=0, 1, 2, ...

当我把这些链接粘贴到我的浏览器中时,它们确实工作得很好。然而,当我试图爬上这些链接时,我的乐观情绪被打破了。最后,我在数据库中只得到与X = 0相对应的条目。在

这是我的蜘蛛:

^{pr2}$

用cd3来代替cd3?在

欢迎提出任何建议,谢谢!在


Tags: 信息http网站链接wwwde逻辑房间
1条回答
网友
1楼 · 发布于 2024-09-27 23:27:26

看起来像是一个cookies问题,你可以通过打开一个新的浏览器并直接尝试6th page来检查,例如,你将收到第一个页面的响应。在

Scrapy尝试将cookies用于后续请求,因此解决这一问题的一种方法不是将请求迭代到页面,而是一个接一个地进行如下操作:

import re

start_urls = [http://example.com/0.html]

def parse(self, response):
    cur_index = response.meta.get('cur_index', 1)
    ...
    new_url = # use the response.url to change to the following url (+1 to the index)
    if cur_index < 10:
        yield Request(new_url, callback=self.parse, meta={'cur_index': cur_index+1})

相关问题 更多 >

    热门问题