Scrapy标识重定向和停止循环

def parse(self,response): l = range(100) reviewRange = l[10::10] for x in reviewRange: yield((url+"-or"+str(x)), callback=self.parse_page) def parse_page(self,response): #do something #How can I from here tell the for loop to stop if(oldurl == response.url): return break #this doesnt work

2条回答

网友

1楼 · 编辑于 2024-10-04 05:20:28

这不是对实际问题的回答，而是不需要重定向检测的替代解决方案。你知道吗

在HTML中，您可以使用以下方法找到所有分页URL：

response.css('.pageNum::attr(href)').getall()

关于@Anton在评论中提出的问题，关于我是如何做到这一点的：

你可以通过打开一个随机的餐厅评论页面来检查这一点：

scrapy shell "https://www.tripadvisor.co.za/Restaurant_Review-g32655-d348825-Reviews-Brent_s_Delicatessen_Restaurant-Los_Angeles_California.html"

在shell中，您可以使用以下工具在浏览器中查看收到的HTML：

view(response)

在这里，您将看到它包含用于分页链接的HTML（和那个特定的类）。真正的网站确实使用Javascript来呈现下一页，但它是通过基于URL检索下一页的完整HTML来实现的。基本上，它只是取代了整个页面，很少涉及额外的处理。所以这意味着如果你自己打开链接，你也会得到完整的HTML。因此，Javascript问题与此无关。你知道吗

网友

2楼 · 编辑于 2024-10-04 05:20:28

例如，您可以检查response.meta.get('redirect_urls')中的内容。如果您在那里有什么，请用dont_filter重试原始url。或者试着用RetryMiddleware抓住这样的案子。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章