我想从offerrup.com网站在那破壳上,什么也没有出来。在
我将键入:
scrapy shell https://offerup.com/
它会去那里,但如果我只是想用以下方式获取整个网页的文本:
response.xpath('//text()').extract()
它带来了:
['Request unsuccessful. Incapsula incident ID: 623000250007296502-10946686267359632']
它返回时没有任何其他信息,如标题。
你知道为什么会这样吗?任何帮助都是非常感谢的。在
注意阅读你在访问Offerrup时得到的回复。在
你得到一个403,一个禁止的错误。任何东西都不能绕过403。在
如果您尝试其他站点,例如http://buffalo.craigslist.org,则给出200的OK响应。使用相同的命令将显示所需的页面,使用
response.xpath('//text()').extract()
将打印根目录下的所有文本元素。在一些网站可能设置了防刮措施来防止机器人占用资源。Offerrup显然就是这样一个网站。在
为了直接回答您的问题,您的代码是功能性的,但是目标站点阻止您使用它。在
相关问题 更多 >
编程相关推荐