Python Scrapy没有为某些Pag获取任何内容

2024-10-01 09:17:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我想从offerrup.com网站在那破壳上,什么也没有出来。在

我将键入:

scrapy shell https://offerup.com/

它会去那里,但如果我只是想用以下方式获取整个网页的文本:

response.xpath('//text()').extract()

它带来了:

['Request unsuccessful. Incapsula incident ID: 623000250007296502-10946686267359632']

它返回时没有任何其他信息,如标题。
你知道为什么会这样吗?任何帮助都是非常感谢的。在


Tags: texthttps文本com网页键入网站response
1条回答
网友
1楼 · 发布于 2024-10-01 09:17:49

注意阅读你在访问Offerrup时得到的回复。在

[s] Available Scrapy objects:

[s] scrapy scrapy module (contains scrapy.Request, scrapy.Selector, etc)

[s] crawler

[s] item {}

[s] request https://offerup.com>

[s] response <403 https://offerup.com>

你得到一个403,一个禁止的错误。任何东西都不能绕过403。在

如果您尝试其他站点,例如http://buffalo.craigslist.org,则给出200的OK响应。使用相同的命令将显示所需的页面,使用response.xpath('//text()').extract()将打印根目录下的所有文本元素。在

一些网站可能设置了防刮措施来防止机器人占用资源。Offerrup显然就是这样一个网站。在

为了直接回答您的问题,您的代码是功能性的,但是目标站点阻止您使用它。在

相关问题 更多 >