一次又一次的抓取同一页不同的网址在德语si - 问答 - Python中文网

一次又一次的抓取同一页不同的网址在德语si

2024-09-27 23:27:26 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我试图从一个名为WG-Gesucht的德国网站上提取公寓/房间的信息。我发现他们之间的联系符合逻辑：

http:// www.wg-gesucht.de/wohnungen-in-Berlin.8.2.0.**X**.html`

其中X=0, 1, 2, ...

当我把这些链接粘贴到我的浏览器中时，它们确实工作得很好。然而，当我试图爬上这些链接时，我的乐观情绪被打破了。最后，我在数据库中只得到与X = 0相对应的条目。在

这是我的蜘蛛：

^{pr2}$

用cd3来代替cd3？在

欢迎提出任何建议，谢谢！在

Tags：信息 http 网站链接 www de 逻辑房间

1条回答

网友

1楼 · 发布于 2024-09-27 23:27:26

看起来像是一个cookies问题，你可以通过打开一个新的浏览器并直接尝试6th page来检查，例如，你将收到第一个页面的响应。在

Scrapy尝试将cookies用于后续请求，因此解决这一问题的一种方法不是将请求迭代到页面，而是一个接一个地进行如下操作：

import re

start_urls = [http://example.com/0.html]

def parse(self, response):
    cur_index = response.meta.get('cur_index', 1)
    ...
    new_url = # use the response.url to change to the following url (+1 to the index)
    if cur_index < 10:
        yield Request(new_url, callback=self.parse, meta={'cur_index': cur_index+1})

相关问题更多 >

编程相关推荐

热门问题

热门文章